<img src="img/Marca-ITBA-Color-ALTA.png" width="200">

# Programación para el Análisis de Datos

## Clase 3 - Pandas - Series y DataFrames

#### Referencias y bibliografía de consulta:

- Python for Data Analysis by Wes McKinney (O’Reilly) 2018 - capítulo 5

- https://pandas.pydata.org/

## Introducción

Pandas es una herramienta clave para el análisis de datos con Python. Contiene estructuras de datos y herramientas de manipulación de datos diseñadas para hacer que la limpieza y el análisis de los datos sean rápidos y fáciles.

Pandas se utiliza a menudo junto con herramientas de computación numérica como NumPy y SciPy, bibliotecas analíticas como Statsmodels y Scikit-learn, y bibliotecas de visualización de datos como Matplotlib y Seaborn.

Pandas adopta partes significativas del estilo idiomático de NumPy de computación basada en arrays, especialmente funciones basadas en arrays y una preferencia por el procesamiento de datos sin bucles.

Mientras que pandas adopta muchos modismos de codificación de NumPy, la mayor diferencia es que Pandas está diseñado para trabajar con datos tabulares o heterogéneos. NumPy, por el contrario, es más adecuado para trabajar con datos de tensores numéricos n-dimensionales homogéneos.

Para empezar con los pandas, comencemos por presentar sus principales estructuras de datos: Series y DataFrame.

In [50]:
import numpy as np
import pandas as pd

## Series

Una `Serie` es un objeto de tipo array de una dimensión que contiene una **secuencia de valores** y una lista de etiquetas asociados a estos valores **denominado index**

En nuestro ejemplo, los valores son los números reales que representan a la "cantidad de bolsas", mientras que el `index` corresponde a la secuencia Pozo1, Pozo2, .... 

Cuando no especificamos un índice para los datos, se asigna por default un índice formado por valores enteros de 0 a N-1, donde N es la cantidad de valores en la serie.

Los valores de la serie pueden ser de cualquier tipo de datos, pero todos **los valores de una serie deben coincidir en su tipo**.

<img src="img/Series.png" width="400">

#### Definición

La forma más simple de crear una serie es a partir de un array de datos.

Creamos una serie a partir de una lista y de un array de numpy:

In [51]:
lista1 = [10, 20, 30, 40]

series1 = pd.Series(lista1)

series1

0    10
1    20
2    30
3    40
dtype: int64

In [52]:
array1 = np.array(lista1)

series2 = pd.Series(array1)
print(series2)

0    10
1    20
2    30
3    40
dtype: int64


In [53]:
print(type(series1))
print(type(series2))

<class 'pandas.core.series.Series'>
<class 'pandas.core.series.Series'>


#### Metodos y atributos básicos

Los valores de la serie se obtienen con el atributo values. Los valores de la serie se encuentran almacenados como un array de numpy.

In [54]:
print(series2.values)
print(type(series2.values))

[10 20 30 40]
<class 'numpy.ndarray'>


Los índices o index de la serie se obtienen con el atributo `index`. Esta información se encuentra almacenada en un tipo de dato `Index`, o algun derivado como `RangeIndex`.

In [55]:
print(series2.index)
print(type(series2.index))

RangeIndex(start=0, stop=4, step=1)
<class 'pandas.core.indexes.range.RangeIndex'>


Pandas nos permite definir el index al momento de crear la serie, de modo tal de identificar a cada elemento de la serie con una etiqueta.
Esto es útil a la hora de buscar elementos en una serie.

In [56]:
series3 = pd.Series(lista1, index=['d', 'b', 'a', 'c'])
print(series3)
print(series3.index)
print(type(series3.index))

d    10
b    20
a    30
c    40
dtype: int64
Index(['d', 'b', 'a', 'c'], dtype='object')
<class 'pandas.core.indexes.base.Index'>


De forma similar a una lista o un array, es posible acceder a un elemento de la serie mediante un indice.

In [57]:
series3['a']

30

Considerando que los datos almacenados en una serie son arrays, todo lo que vimos la clase pasada se puede integrar a `Pandas`.
Es decir que el uso de las funciones `NumPy` o de operaciones similares a las de `NumPy`, como el filtrado con una máscara booleana, la multiplicación escalar o la aplicación de funciones matemáticas, preservará el vínculo índice-valor.
Por ejemplo la asignación de un valor a un elemento ( o multiples) dentro de una serie y el indexing.

In [58]:
# Podemos modificar valores de la Series:
series3['d'] = 6
print(series3)


d     6
b    20
a    30
c    40
dtype: int64


In [59]:
# Podemos hacer Fancy indexing:
series3[['c', 'a', 'd', 'd']]

c    40
a    30
d     6
d     6
dtype: int64

El boolean indexing

In [60]:
# Boolean indexing
series3[series3 > 20]

a    30
c    40
dtype: int64

In [61]:
series3 > 20

d    False
b    False
a     True
c     True
dtype: bool

Las operaciones aritmeticas

In [62]:
print(series3 * 2)
print('')
print(np.exp(series3))

d    12
b    40
a    60
c    80
dtype: int64

d    4.034288e+02
b    4.851652e+08
a    1.068647e+13
c    2.353853e+17
dtype: float64


#### Series como diccionarios

Si pensamos a las instancias de `Series` como diccionarios, podemos usar expresiones similares a las usadas en diccionarios para examinar claves y valores.
Esto facilita la busqueda y selección de elementos como se muestra en el siguiente ejemplo.

In [63]:
print('b' in series3)
print('f' in series3)

True
False


También podemos crear una `Serie` a partir de un diccionario de Python.

Se puede ver que las claves del diccionario son utilizadas como index de la `Serie`.

In [64]:
data_estados = {'Ohio': 35000, 'Texas': 71000, 'Oregon': 16000, 'Utah': 5000, 'NY': 34002}
print(data_estados)


{'Ohio': 35000, 'Texas': 71000, 'Oregon': 16000, 'Utah': 5000, 'NY': 34002}


In [65]:
serie_estados = pd.Series(data_estados)
print(serie_estados)

Ohio      35000
Texas     71000
Oregon    16000
Utah       5000
NY        34002
dtype: int64


In [66]:
serie_estados.index

Index(['Ohio', 'Texas', 'Oregon', 'Utah', 'NY'], dtype='object')

In [67]:
serie_estados.values

array([35000, 71000, 16000,  5000, 34002])

Cuando solamente pasamos un diccionario, el `index` de la `Serie` serán las claves del diccionario en el orden del mismo. Podemos definir explicitamente el `index` pasando las claves del diccionario en el orden que queremos que aparezcan.

In [68]:
estados = ['Ohio', 'Oregon', 'Texas', 'Oregon']
serie_estados2 = pd.Series(data_estados, index=estados)
serie_estados2

Ohio      35000
Oregon    16000
Texas     71000
Oregon    16000
dtype: int64

Vemos que los elementos de la lista que pasamos en el `index` que son claves del diccionario, son asignadas a la serie. Vemos que incluso podemos repetir elementos, como en el caso de Oregon. Si uno de los elementos de la lista no pertenece al diccinario, es decir que no es una clave del diccionario, ese elemento formará parte del `index`, pero su `value` será `NaN`. 

In [69]:
estados = ['California', 'Ohio', 'Oregon', 'Texas', 'Oregon', 'Iowa']
serie_estados2 = pd.Series(data_estados, index=estados)
serie_estados2

California        NaN
Ohio          35000.0
Oregon        16000.0
Texas         71000.0
Oregon        16000.0
Iowa              NaN
dtype: float64

Para detectar valores faltantes, podemos utilizar las funciones `pd.isnull()`y `pd.notnull()`

In [70]:
print(pd.isnull(serie_estados2)) # idem serie_estados2.isnull()
print(pd.notnull(serie_estados2))

California     True
Ohio          False
Oregon        False
Texas         False
Oregon        False
Iowa           True
dtype: bool
California    False
Ohio           True
Oregon         True
Texas          True
Oregon         True
Iowa          False
dtype: bool


In [71]:
serie_estados2.isnull().sum()

2

Las series de pandas sobreescriben operaciones aritmeticas como la suma `+`, con funcionalidades importantes cómo la concatenación

In [72]:
print(f"serie 1:\n{serie_estados}")
print('')
print(f"serie 2:\n{serie_estados2}")

print('')
print(serie_estados + serie_estados2)

serie 1:
Ohio      35000
Texas     71000
Oregon    16000
Utah       5000
NY        34002
dtype: int64

serie 2:
California        NaN
Ohio          35000.0
Oregon        16000.0
Texas         71000.0
Oregon        16000.0
Iowa              NaN
dtype: float64

California         NaN
Iowa               NaN
NY                 NaN
Ohio           70000.0
Oregon         32000.0
Oregon         32000.0
Texas         142000.0
Utah               NaN
dtype: float64


In [73]:
serie_estados_total = serie_estados + serie_estados2

In [74]:
serie_estados_total['California'] = 100

In [75]:
serie_estados_total

California       100.0
Iowa               NaN
NY                 NaN
Ohio           70000.0
Oregon         32000.0
Oregon         32000.0
Texas         142000.0
Utah               NaN
dtype: float64

In [76]:
serie_estados2

California        NaN
Ohio          35000.0
Oregon        16000.0
Texas         71000.0
Oregon        16000.0
Iowa              NaN
dtype: float64

Un atributo que facilita el uso de este módulo es `name`. Este atributo nos permite nombrar las series para poder acceder y entender que información se almacena en cada serie o que representa un indice o un valor.

In [77]:
serie_estados2.name = 'población'
serie_estados2.index.name = 'estado'

serie_estados2

estado
California        NaN
Ohio          35000.0
Oregon        16000.0
Texas         71000.0
Oregon        16000.0
Iowa              NaN
Name: población, dtype: float64

## Indexación


#### Series como array de una dimensión



Una instancia de `Series` provee una forma de seleccionar datos análoga a la de arrays. Podemos usar slices, fancy indexing y máscaras booleanas. Pero a diferencia de los arrays, ahora tenemos un índice explícito asociado a cada valor. En una serie podemos acceder a los elementos usando los índices explícitos o los implícitos (su posición en la serie). Para desambiguar las estrategias de indexación usaremos el método `.loc` para la indexación explícita y `.iloc` para la implícita. 

A modo de ejemplo tomemos la serie `series3` para recordar estos metodos para acceder a los datos.

In [78]:
series3

d     6
b    20
a    30
c    40
dtype: int64

In [79]:
print(series3.loc['b'])
print(series3.iloc[1])

20
20


##### Slicing explícito

Cuando hacemos slicing explícito el índice final es incluido en el slice

In [80]:
series3.loc['b':'c']

b    20
a    30
c    40
dtype: int64

##### Slicing implícito

Cuando hacemos slicing implícito el índice final no es incluido en el slice

In [81]:
series3.iloc[1:3]

b    20
a    30
dtype: int64

##### Máscaras booleanas 

In [82]:
series3.loc[(series3 > 10) & (series3 < 30)]

b    20
dtype: int64

In [83]:
series3.loc[series3 > 10]

b    20
a    30
c    40
dtype: int64

In [84]:
mask = [True, False, False, True]
series3.loc[mask]

d     6
c    40
dtype: int64

##### Fancy indexing:

In [85]:
series3.loc[['a', 'd', 'b', 'b']]

a    30
d     6
b    20
b    20
dtype: int64

In [86]:
series3.iloc[[1, 3, 2]]

b    20
c    40
a    30
dtype: int64

## Dataframe

#### Introducción

Un DataFrame representa una estructura de datos **tabular** que contiene una colección de columnas, cada una de las cuales tiene un tipo de datos determinado (number, string, boolean, etc.).

Podemos pensar un objeto `DataFrame` como un diccionario de series "alineadas" (que comparten el mismo `index`).

Una instancia de DataFrame tiene **índices de columnas y de filas**. 

<img src="img/DataFrames.png" width="400">

Hay muchas maneras de construir un DataFrame, aunque una de las más comunes es a partir de un diccionario de listas de igual longitud o arrays de NumPy

In [87]:
data = {'state': ['Ohio', 'Ohio', 'Ohio', 'Nevada', 'Nevada', 'Nevada'],
        'year': [2000, 2001, 2002, 2001, 2002, 2003],
        'pop': [1.5, 1.7, 3.6, 2.4, 2.9, 3.2]}

df1 = pd.DataFrame(data)

display(df1)

Unnamed: 0,state,year,pop
0,Ohio,2000,1.5
1,Ohio,2001,1.7
2,Ohio,2002,3.6
3,Nevada,2001,2.4
4,Nevada,2002,2.9
5,Nevada,2003,3.2


Se puede pensar que un `DataFrame` esta compuesto por `Series` que comparten el mismo `index`.

Haciendo esta analogia, se entiende porque el `DataFrame` comparte una gran cantidad de métodos con las `Series`.

Por ejemplo:

In [88]:
df1.index

RangeIndex(start=0, stop=6, step=1)

Pero el tipo de dat `DataFrame` agrega grandes funcionalidades para la manipulación de datos.
El primer atributo es `columns` que contiene un `Index` con todas las columnas del `DataFrame`

In [89]:
df1.columns

Index(['state', 'year', 'pop'], dtype='object')

Para `DataFrames` grandes, es común querer validar algunos pasos del proceso utilizando unicamente unos pocos registros del `DataFrame`.

El método `head()` toma solamente las primeras filas. Por default toma las primeras 5 filas, pero se puede especificar el número de filas. 

Otros métodos útiles para explorar un `DataFrame`:
- El método `tail()` toma las últimas filas
- El método `sample()` toma una muestra aleatoria del DataFrame. Por default toma 1 fila pero puede tomar las que se especifiquen.

In [90]:
df1.describe().T

Unnamed: 0,count,mean,std,min,25%,50%,75%,max
year,6.0,2001.5,1.048809,2000.0,2001.0,2001.5,2002.0,2003.0
pop,6.0,2.55,0.836062,1.5,1.875,2.65,3.125,3.6


In [91]:
df1.head()


Unnamed: 0,state,year,pop
0,Ohio,2000,1.5
1,Ohio,2001,1.7
2,Ohio,2002,3.6
3,Nevada,2001,2.4
4,Nevada,2002,2.9


In [92]:
df1.tail(1)

Unnamed: 0,state,year,pop
5,Nevada,2003,3.2


In [93]:
df1.sample(3)

Unnamed: 0,state,year,pop
1,Ohio,2001,1.7
5,Nevada,2003,3.2
2,Ohio,2002,3.6


Cuando se crea un nuevo `DataFrame` a partir de datos, es posible definir los nombres de las columnas a utilizar y el orden de las mismas

In [94]:
pd.DataFrame(data, columns=['year', 'state', 'pop'])

Unnamed: 0,year,state,pop
0,2000,Ohio,1.5
1,2001,Ohio,1.7
2,2002,Ohio,3.6
3,2001,Nevada,2.4
4,2002,Nevada,2.9
5,2003,Nevada,3.2


Al igual que con las series, si se define una columna que no se encuentra en los datos, se completa esa columna con `NaN` (Not an Number).
Es importante destacar que la cantidad de indices definidos tiene que coincidir con la cantidad de elementos en los datos.

In [95]:
data

{'state': ['Ohio', 'Ohio', 'Ohio', 'Nevada', 'Nevada', 'Nevada'],
 'year': [2000, 2001, 2002, 2001, 2002, 2003],
 'pop': [1.5, 1.7, 3.6, 2.4, 2.9, 3.2]}

In [96]:
df2 = pd.DataFrame(data, columns=['year', 'state', 'pop', 'debt'],
                         index=['one', 'two', 'three', 'four',
                                'five', 'six'])
df2

Unnamed: 0,year,state,pop,debt
one,2000,Ohio,1.5,
two,2001,Ohio,1.7,
three,2002,Ohio,3.6,
four,2001,Nevada,2.4,
five,2002,Nevada,2.9,
six,2003,Nevada,3.2,


Para seleccionar algunas columnas específicas del `DataFrame` se puede utilizar indexing.


In [97]:
display(df2['state'])
print(type(df2['state']))

one        Ohio
two        Ohio
three      Ohio
four     Nevada
five     Nevada
six      Nevada
Name: state, dtype: object

<class 'pandas.core.series.Series'>


In [98]:
display(df2[['state', 'debt']])
print(type(df2[['state', 'debt']]))

Unnamed: 0,state,debt
one,Ohio,
two,Ohio,
three,Ohio,
four,Nevada,
five,Nevada,
six,Nevada,


<class 'pandas.core.frame.DataFrame'>


Es importante notar que si se selecciona unicamente una columna, el resultado corresponde a un tipo de dato `Series`. 
Para que el tipo de dato sea un `DataFrame` es necesario que el indice sea una lista de las columnas a seleccionar.

In [99]:
type(df2[['state']])

pandas.core.frame.DataFrame

#### Reindexing
Un método importante en los objetos de los pandas es el reindex(). Este método es capaz de crear un nuevo objeto con los mismos datos, pero relacionados a un nuevo index

In [100]:
df3 = pd.DataFrame(np.arange(9).reshape((3, 3)),
                     index=['a', 'c', 'd'],
                     columns=['Ohio', 'Texas', 'California'])
df3

Unnamed: 0,Ohio,Texas,California
a,0,1,2
c,3,4,5
d,6,7,8


En el caso de que no exista el indice, se genera un nuevo registro con datos `NaN`

In [101]:
df4 = df3.reindex(['a', 'b', 'c', 'd', 'd'])
df4

Unnamed: 0,Ohio,Texas,California
a,0.0,1.0,2.0
b,,,
c,3.0,4.0,5.0
d,6.0,7.0,8.0
d,6.0,7.0,8.0


Si se utiliza el argumento `columns`, es posible reordenar las columnas

In [102]:
df3

Unnamed: 0,Ohio,Texas,California
a,0,1,2
c,3,4,5
d,6,7,8


In [103]:
states = ['Texas', 'Utah', 'California']
df3.reindex(columns=states)

Unnamed: 0,Texas,Utah,California
a,1,,2
c,4,,5
d,7,,8


En muchos casos prácticos es común utilizar una de las columnas como indice de la tabla.
Esto se puede resolver facilmente utilizando el método `set_index`

In [104]:
display(df2)

df2.set_index('state')

Unnamed: 0,year,state,pop,debt
one,2000,Ohio,1.5,
two,2001,Ohio,1.7,
three,2002,Ohio,3.6,
four,2001,Nevada,2.4,
five,2002,Nevada,2.9,
six,2003,Nevada,3.2,


Unnamed: 0_level_0,year,pop,debt
state,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
Ohio,2000,1.5,
Ohio,2001,1.7,
Ohio,2002,3.6,
Nevada,2001,2.4,
Nevada,2002,2.9,
Nevada,2003,3.2,


#### Eliminación de registros

Podemos dropear elementos del `DataFrame` con el método `drop()`. 

In [105]:
df5 = pd.DataFrame(np.arange(16).reshape((4, 4)),
                    index=['Ohio', 'Colorado', 'Utah', 'New York'],
                    columns=['one', 'two', 'three', 'four'])
df5

Unnamed: 0,one,two,three,four
Ohio,0,1,2,3
Colorado,4,5,6,7
Utah,8,9,10,11
New York,12,13,14,15


Llamar al método `drop()`con una secuencia de etiquetas va a dropear valores del `axis=0`, es decir filas:

In [106]:
df5.drop(['Colorado', 'Ohio'], axis=0)

Unnamed: 0,one,two,three,four
Utah,8,9,10,11
New York,12,13,14,15


Podemos dropear columnas pasando `axis=1` o `axis='columns'`:

In [107]:
df5.drop('two', axis=1)

Unnamed: 0,one,three,four
Ohio,0,2,3
Colorado,4,6,7
Utah,8,10,11
New York,12,14,15


In [108]:
df5.drop(['two', 'four'], axis='columns')

Unnamed: 0,one,three
Ohio,0,2
Colorado,4,6
Utah,8,10
New York,12,14


In [109]:
df5

Unnamed: 0,one,two,three,four
Ohio,0,1,2,3
Colorado,4,5,6,7
Utah,8,9,10,11
New York,12,13,14,15


In [110]:
df5 = df5.drop('two', axis=1)

In [111]:
df5

Unnamed: 0,one,three,four
Ohio,0,2,3
Colorado,4,6,7
Utah,8,10,11
New York,12,14,15


#### Seleccion de valores

Es útil poder acceder a registros específicos de un `DataFrame`. Para esto, Pandas nos aporta dos métodos sumamente utilizados `loc()` y `iloc()`

Los operadores de indexación especial `loc` e `iloc` permiten seleccionar un subconjunto de las filas y columnas de un `DataFrame`  usando las etiquetas del axis (`loc`) o números enteros (`iloc`).

Como ejemplo preliminar, seleccionemos una sola fila y varias columnas por etiqueta:

In [122]:
df5.loc[['Colorado', 'Utah'], ['one', 'three']]

Unnamed: 0,one,three
Colorado,4,6
Utah,8,10


In [113]:
df5.loc['Colorado', ['one', 'three']]

one      4
three    6
Name: Colorado, dtype: int64

Vamos a realizar la misma selección usando las posiciones con `iloc`:

In [114]:
df5.iloc[1, [0, 1]]

one      4
three    6
Name: Colorado, dtype: int64

Ambas funciones de indexación funcionan con `slices`

In [115]:
df5.loc[:'Utah', ['one', 'three']]

Unnamed: 0,one,three
Ohio,0,2
Colorado,4,6
Utah,8,10


In [116]:
df5.iloc[:, :3]

Unnamed: 0,one,three,four
Ohio,0,2,3
Colorado,4,6,7
Utah,8,10,11
New York,12,14,15


Recordar que sobre los `DataFrames` se puede utilizar **boolean indexig**

In [117]:
df5['three'] > 5

Ohio        False
Colorado     True
Utah         True
New York     True
Name: three, dtype: bool

In [118]:
df5

Unnamed: 0,one,three,four
Ohio,0,2,3
Colorado,4,6,7
Utah,8,10,11
New York,12,14,15


In [119]:
df5.loc[df5['three'] > 5]

Unnamed: 0,one,three,four
Colorado,4,6,7
Utah,8,10,11
New York,12,14,15


In [120]:
df5.loc[df5['three'] > 5, ['four', 'three']]

Unnamed: 0,four,three
Colorado,7,6
Utah,11,10
New York,15,14


In [121]:
df5.three

Ohio         2
Colorado     6
Utah        10
New York    14
Name: three, dtype: int64

<!-- <span style="font-size:1.5em">Fin de la clase.</span> -->

<span style="font-size:2em">Muchas gracias por su atención!</span>