<img src="mioti.png" style="height: 100px">
<center style="color:#888">Data Science with Python</center>

# DSPy3. Pandas basics

<h1>Table of Contents<span class="tocSkip"></span></h1>
<div class="toc"><ul class="toc-item"><li><span><a href="#Estructuras-de-datos-de-Pandas:-series" data-toc-modified-id="Estructuras-de-datos-de-Pandas:-series-1"><span class="toc-item-num">1&nbsp;&nbsp;</span>Estructuras de datos de Pandas: <code>series</code></a></span><ul class="toc-item"><li><span><a href="#Declaración-de-series" data-toc-modified-id="Declaración-de-series-1.1"><span class="toc-item-num">1.1&nbsp;&nbsp;</span>Declaración de <code>series</code></a></span></li><li><span><a href="#Indexing,-slicing,-ohmy!-😱" data-toc-modified-id="Indexing,-slicing,-ohmy!-😱-1.2"><span class="toc-item-num">1.2&nbsp;&nbsp;</span>Indexing, slicing, ohmy! 😱</a></span></li></ul></li><li><span><a href="#Estructuras-de-datos-de-Pandas:-dataframes" data-toc-modified-id="Estructuras-de-datos-de-Pandas:-dataframes-2"><span class="toc-item-num">2&nbsp;&nbsp;</span>Estructuras de datos de Pandas: <code>dataframes</code></a></span><ul class="toc-item"><li><span><a href="#Declaración-de-dataframes" data-toc-modified-id="Declaración-de-dataframes-2.1"><span class="toc-item-num">2.1&nbsp;&nbsp;</span>Declaración de dataframes</a></span></li><li><span><a href="#Indexing-&amp;-slicing" data-toc-modified-id="Indexing-&amp;-slicing-2.2"><span class="toc-item-num">2.2&nbsp;&nbsp;</span>Indexing &amp; slicing</a></span></li></ul></li><li><span><a href="#Boolean-indexing" data-toc-modified-id="Boolean-indexing-3"><span class="toc-item-num">3&nbsp;&nbsp;</span>Boolean indexing</a></span></li><li><span><a href="#Ausencia-de-valores" data-toc-modified-id="Ausencia-de-valores-4"><span class="toc-item-num">4&nbsp;&nbsp;</span>Ausencia de valores</a></span></li></ul></div>

<img src="pandas.png" style="height: 250px; float: left">

Es el paquete de Python que usaremos a lo largo del programa para _data wrangling_ (limpieza y transformación de datos) y análisis de datos. 

Pandas trabaja sobre NumPy, lo que significa que está orientado a la computación vectorial en lugar de al trabajo iterando con bucles.

Sin embargo, la principal diferencia con NumPy es que **Pandas sí que está orientado al trabajo con datos en formato tabular heterogéneos** (de distintos tipos), mientras que los arrays de NumPy están más optimizados a cálculos sobre datos numéricos homogéneos.

<img src="pandas_logo.png" style="width: 800px">


In [2]:
import pandas as pd

## Estructuras de datos de Pandas: `series`

<img src="series.png" style="height: 150px">


Están implementadas por medio de NumPy arrays, y, como éstos, tienen un tipo único de datos:

In [None]:
animals = ["Tigre", "Oso", "Cebra"]
pd.Series(animals)

In [None]:
numbers = [1, 2, 3]
pd.Series(numbers)

In [None]:
animals_and_numbers = [1, "Tigre", 2]
pd.Series(animals_and_numbers)

### Declaración de `series`

In [None]:
sports = {'Archery': 'Bhutan',
          'Golf': 'Scotland',
          'Sumo': 'Japan',
          'Taekwondo': 'South Korea'}
s = pd.Series(sports)
s

In [None]:
s = pd.Series(['Tigre', 'Oso', 'Cebra'], index=['India', 'America', 'Canada'])
s

Si pasamos un diccionario y a la vez especificamos el argumento `index`, intentará casar las claves del diccionario con éste:

In [None]:
sports = {'Archery': 'Bhutan',
          'Golf': 'Scotland',
          'Sumo': 'Japan',
          'Taekwondo': 'South Korea'}
s = pd.Series(sports, index=['Golf', 'Sumo', 'Hockey'])
s

Podemos tener índices repetidos:

In [None]:
s = pd.Series(['Tigre', 'Oso', 'Cebra'], index=['India', 'India', 'Canada'])
s

Las series pueden tener nombre:

In [None]:
s.name = "test_series"
s

### Indexing, slicing, ohmy! 😱

In [None]:
sports = {'Archery': 'Bhutan',
          'Golf': 'Scotland',
          'Sumo': 'Japan',
          'Taekwondo': 'South Korea'}
s = pd.Series(sports)
s

In [None]:
s.index

In [None]:
s.values

Podemos acceder por nombre del índice:

In [None]:
s.loc['Golf']

O por posición: 

In [None]:
s.iloc[1]

Si usamos el operador de indexado `[]` directamente, Pandas usará internamente `loc` o `iloc` de manera inteligente:

In [None]:
s['Golf']

In [None]:
s[1]

Pero ojo cuidao...

In [None]:
sports = {99: 'Bhutan',
          100: 'Scotland',
          101: 'Japan',
          102: 'South Korea'}
s = pd.Series(sports)
s

In [None]:
s[0]

Si definimos un índice numérico, Pandas se negará a usar directamente el operador de indexado porque no sabrá si nos referimos a un índice etiquetado o a un índice posicional. Pero `iloc` sí que funcionaría, puesto que eliminarímos así esa ambiguedad:

In [None]:
s.iloc[0]

Como los índices pueden no ser únicos, cuando usamos `loc`, Pandas nos devolverá todos los elementos con ese índice:

In [None]:
original_sports = pd.Series({'Archery': 'Bhutan',
                             'Golf': 'Scotland',
                             'Sumo': 'Japan',
                             'Taekwondo': 'South Korea'})
cricket_loving_countries = pd.Series(['Australia',
                                      'Barbados',
                                      'Pakistan',
                                      'England'], 
                                index=['Cricket',
                                          'Cricket',
                                          'Cricket',
                                          'Cricket'])
all_countries = original_sports.append(cricket_loving_countries)
all_countries

In [None]:
s = all_countries.loc["Cricket"]
s

Ojo cuidado (again):

In [None]:
s[0]

Aquí el índice no es numérico y aún así, el indexado posicional usando directamente el operador de indexado `[]` no funciona, debido a un bug en la librería de Pandas: https://github.com/pandas-dev/pandas/issues/11201. Sin embargo, `iloc` sigue funcionando como se espera:

In [None]:
s.iloc[0]

<div class="alert alert-block alert-success">
    
**¿Conclusión? Usad `loc[]` o `iloc[]` siempre en lugar del operador de indexado `[]` directamente**

</div>

## Estructuras de datos de Pandas: `dataframes`

<img src="dataframe.png" style="height: 200px">


### Declaración de dataframes

Hay muchas maneras de construir un `dataframe` pero quizá la más popular sea la siguiente: 

In [4]:
data = {'Cost': [22.5, 2.5, 5.0],
        'Item Purchased': ["Dog Food", "Kitty Litter", "Bird Seed"],
        'Name': ["Chris", "Kevin", "Mike"]}
df = pd.DataFrame(data, index=["Store 1", "Store 1", "Store 2"])
df

Unnamed: 0,Cost,Item Purchased,Name
Store 1,22.5,Dog Food,Chris
Store 1,2.5,Kitty Litter,Kevin
Store 2,5.0,Bird Seed,Mike


In [None]:
df.columns

In [None]:
df.index

Los tipos de datos se informan por colummna:

In [None]:
df.dtypes

Y también existe aquí `shape` como en los arrays de NumPy:

In [5]:
df.shape

(3, 3)

### Indexing & slicing 

In [None]:
df

Usamos el operador de indexado con `loc` o `iloc` como en las series, indicando primero fila y luego columna. 

In [None]:
df.loc['Store 2', 'Cost']

In [None]:
df.iloc[2,0]

No indicar columna equivale a seleccionar todas las columnas:

In [None]:
df.loc['Store 1']

Que es equivalente a:


In [None]:
df.loc['Store 1', :]

Para seleccionar todas las filas:

In [None]:
df.loc[:,"Cost"]

Una fila de un `DataFrame` es una `Series`:

In [None]:
print(type(df.loc['Store 2']))
df.loc['Store 2']

También una columna: 

In [None]:
print(type(df.loc[:,'Cost']))
df.loc[:,'Cost']

Se pueden indicar tanto rangos como listas de filas y columnas:

In [None]:
df.loc['Store 1', ['Cost', 'Name']]

In [None]:
df.iloc[0:2, [0, 2]]

Si usamos el operador de indexado directamente, Pandas entenderá que nos referimos a las columnas:

In [None]:
df['Cost']

In [None]:
df['Store 1'] # Da error

**Ojo cuidao.** Porque si hacemos slicing directamente con el operador de indexado, entonces no entenderá que queremos columnas, sino filas:

In [None]:
df[0:2]

<div class="alert alert-block alert-success">
    
**¿Conclusión? Usad `loc[]` o `iloc[]` siempre en lugar del operador de indexado `[]` directamente**

</div>

Añadir filas o columnas es tan fácil como acceder a esas filas / columnas que no existen y darles valor:

In [None]:
df

In [None]:
df["Units"] = [3,4,6]
df

In [None]:
df.loc["Store 3"] = [3, "Cat Food", "Pepe", 2]

In [None]:
df

## Boolean indexing

Calcado al que aprendimos con NumPy. Aquí también podemos usar listas de valores booleanos para indicar filas / columnas que seleccionar:

In [None]:
df

In [None]:
df.loc[[True,False,True],:]

In [None]:
df[[True,False,True]]

In [None]:
df.loc[:,[True,False,False]]

¿Cuál sería una apliación práctica para esto? Lo vamos a ver con un ejemplo más completo: cargamos un CSV de los Juegos Olímpicos para estos ejemplos. Recoge el medallero de distintos países en los JJOO de invierno, verano y la suma de ambos.

In [None]:
df = pd.read_csv('olympics.csv', index_col = 0, skiprows=1)
df.head()

Le cambiamos el nombres a las columnas para que sea un poco más legible:

In [None]:
for col in df.columns:
    if col[:2]=='01':
        df.rename(columns={col:'Gold' + col[4:]}, inplace=True)
    if col[:2]=='02':
        df.rename(columns={col:'Silver' + col[4:]}, inplace=True)
    if col[:2]=='03':
        df.rename(columns={col:'Bronze' + col[4:]}, inplace=True)
    if col[:1]=='№':
        df.rename(columns={col:'#' + col[1:]}, inplace=True) 
df.head()

¿Qué paises han ganado al menos una medalla de oro en algún juego de verano?

In [None]:
df['Gold'] > 0

In [None]:
countries_with_gold_in_summer = df[df['Gold'] > 0]
countries_with_gold_in_summer.head(5)

¿Qué países han ganado alguna medalla de oro en invierno y ninguna en verano?

In [None]:
df[(df['Gold.1'] > 0) & (df['Gold'] == 0)]

También podemos seleccionar todos los valores de un DataFrame que cumplen una condición:

In [None]:
df.head(5)

Por ejemplo, seleccionar todos aquellos valores iguales a cero. Esto sería la "máscara booleana":

In [None]:
(df == 0).head(5)

Que al usarla sobre el dataframe, nos deja lo siguiente:

In [None]:
(df[df > 0]).head(5) # Los valores en cuestión toman "NaN"

Podríamos sustituirlos por otra cosa:

In [None]:
df_modified = df.copy()
df_modified[df_modified == 0] = "Zero"
df_modified.head(5)

Podríamos, por ejemplo, eliminar del dataframe todos aquellos registros que tengan al menos un valor en 0:

In [None]:
df = df[df != 0]
df.head(5)

In [None]:
df = df.dropna()
df.head(5)

In [None]:
df.dropna?

## Ausencia de valores

En Python, `None` es un objeto que representa la ausencia de valor (como "null" en otros lenguajes):

In [None]:
animals = ['Tigre', 'Oso', None]
pd.Series(animals)

NumPy y Pandas, en cambio, para valores numericos cambiarán ese `None` por `NaN` ("Not a Number"). A diferencia de `None`, que sería de tipo `object`, NaN es un valor especial que está definido como un número en coma flotante ("float"), lo cual es interesante por razones de eficiencia computacional.

In [None]:
numbers = [1, 2, None]
pd.Series(numbers)

**Pregunta:** ¿Qué devolvera el siguiente código?

In [None]:
None == None

Entonces... ?

In [None]:
animals = pd.Series(['Tigre', 'Oso', None])
animals[animals == None]

**Pregunta:** ¿Qué devolverá el siguiente código?

In [None]:
import numpy as np
np.nan == np.nan







Para evitar caer en este sindios, Pandas ofrece la función de conveniencia `isna`, que tiene en cuenta todo:

In [None]:
animals = pd.Series(['Tigre', 'Oso', None, np.nan])
animals

In [None]:
animals.isna()

BUT...

In [None]:
animals = pd.Series(['Tigre', 'Oso', None, np.nan, np.inf])
animals

In [None]:
animals.isna()

Notice, however:

In [None]:
animals = pd.Series(['Tigre', 'Oso', None, np.nan, np.inf, ""])
animals

In [None]:
animals.isna()