<img src="mioti.png" style="height: 100px">
<center style="color:#888">Data Science with Python</center>

# DSPy3. Pandas basics

<h1>Table of Contents<span class="tocSkip"></span></h1>
<div class="toc"><ul class="toc-item"><li><span><a href="#Estructuras-de-datos-de-Pandas:-series" data-toc-modified-id="Estructuras-de-datos-de-Pandas:-series-1"><span class="toc-item-num">1&nbsp;&nbsp;</span>Estructuras de datos de Pandas: <code>series</code></a></span><ul class="toc-item"><li><span><a href="#Declaración-de-series" data-toc-modified-id="Declaración-de-series-1.1"><span class="toc-item-num">1.1&nbsp;&nbsp;</span>Declaración de <code>series</code></a></span></li><li><span><a href="#Indexing,-slicing,-ohmy!-😱" data-toc-modified-id="Indexing,-slicing,-ohmy!-😱-1.2"><span class="toc-item-num">1.2&nbsp;&nbsp;</span>Indexing, slicing, ohmy! 😱</a></span></li></ul></li><li><span><a href="#Estructuras-de-datos-de-Pandas:-dataframes" data-toc-modified-id="Estructuras-de-datos-de-Pandas:-dataframes-2"><span class="toc-item-num">2&nbsp;&nbsp;</span>Estructuras de datos de Pandas: <code>dataframes</code></a></span><ul class="toc-item"><li><span><a href="#Declaración-de-dataframes" data-toc-modified-id="Declaración-de-dataframes-2.1"><span class="toc-item-num">2.1&nbsp;&nbsp;</span>Declaración de dataframes</a></span></li><li><span><a href="#Indexing-&amp;-slicing" data-toc-modified-id="Indexing-&amp;-slicing-2.2"><span class="toc-item-num">2.2&nbsp;&nbsp;</span>Indexing &amp; slicing</a></span></li></ul></li><li><span><a href="#Boolean-indexing" data-toc-modified-id="Boolean-indexing-3"><span class="toc-item-num">3&nbsp;&nbsp;</span>Boolean indexing</a></span></li><li><span><a href="#Ausencia-de-valores" data-toc-modified-id="Ausencia-de-valores-4"><span class="toc-item-num">4&nbsp;&nbsp;</span>Ausencia de valores</a></span></li></ul></div>

<img src="pandas.png" style="height: 250px; float: left">

Es el paquete de Python que usaremos a lo largo del programa para _data wrangling_ (limpieza y transformación de datos) y análisis de datos. 

Pandas trabaja sobre NumPy, lo que significa que está orientado a la computación vectorial en lugar de al trabajo iterando con bucles.

Sin embargo, la principal diferencia con NumPy es que **Pandas sí que está orientado al trabajo con datos en formato tabular heterogéneos** (de distintos tipos), mientras que los arrays de NumPy están más optimizados a cálculos sobre datos numéricos homogéneos.

<img src="pandas_logo.png" style="width: 800px">


In [1]:
import pandas as pd

## Estructuras de datos de Pandas: `series`

<img src="series.png" style="height: 150px">


Están implementadas por medio de NumPy arrays, y, como éstos, tienen un tipo único de datos:

In [2]:
animals = ["Tigre", "Oso", "Cebra"]
pd.Series(animals)

0    Tigre
1      Oso
2    Cebra
dtype: object

In [3]:
numbers = [1, 2, 3]
pd.Series(numbers)

0    1
1    2
2    3
dtype: int64

In [4]:
animals_and_numbers = [1, "Tigre", 2]
pd.Series(animals_and_numbers)

0        1
1    Tigre
2        2
dtype: object

### Declaración de `series`

In [5]:
sports = {'Archery': 'Bhutan',
          'Golf': 'Scotland',
          'Sumo': 'Japan',
          'Taekwondo': 'South Korea'}
s = pd.Series(sports)
s

Archery           Bhutan
Golf            Scotland
Sumo               Japan
Taekwondo    South Korea
dtype: object

In [6]:
s = pd.Series(['Tigre', 'Oso', 'Cebra'], index=['India', 'America', 'Canada'])
s

India      Tigre
America      Oso
Canada     Cebra
dtype: object

Si pasamos un diccionario y a la vez especificamos el argumento `index`, intentará casar las claves del diccionario con éste:

In [7]:
sports = {'Archery': 'Bhutan',
          'Golf': 'Scotland',
          'Sumo': 'Japan',
          'Taekwondo': 'South Korea'}
s = pd.Series(sports, index=['Golf', 'Sumo', 'Hockey'])
s

Golf      Scotland
Sumo         Japan
Hockey         NaN
dtype: object

Podemos tener índices repetidos:

In [8]:
s = pd.Series(['Tigre', 'Oso', 'Cebra'], index=['India', 'India', 'Canada'])
s

India     Tigre
India       Oso
Canada    Cebra
dtype: object

Las series pueden tener nombre:

In [9]:
s.name = "test_series"
s

India     Tigre
India       Oso
Canada    Cebra
Name: test_series, dtype: object

### Indexing, slicing, ohmy! 😱

In [10]:
sports = {'Archery': 'Bhutan',
          'Golf': 'Scotland',
          'Sumo': 'Japan',
          'Taekwondo': 'South Korea'}
s = pd.Series(sports)
s

Archery           Bhutan
Golf            Scotland
Sumo               Japan
Taekwondo    South Korea
dtype: object

In [11]:
s.index

Index(['Archery', 'Golf', 'Sumo', 'Taekwondo'], dtype='object')

In [12]:
s.values

array(['Bhutan', 'Scotland', 'Japan', 'South Korea'], dtype=object)

Podemos acceder por nombre del índice:

In [13]:
s.loc['Golf']

'Scotland'

O por posición: 

In [14]:
s.iloc[1]

'Scotland'

Si usamos el operador de indexado `[]` directamente, Pandas usará internamente `loc` o `iloc` de manera inteligente:

In [15]:
s['Golf']

'Scotland'

In [16]:
s[1]

'Scotland'

Pero ojo cuidao...

In [17]:
sports = {99: 'Bhutan',
          100: 'Scotland',
          101: 'Japan',
          102: 'South Korea'}
s = pd.Series(sports)
s

99          Bhutan
100       Scotland
101          Japan
102    South Korea
dtype: object

In [18]:
s.iloc[0]

'Bhutan'

Si definimos un índice numérico, Pandas se negará a usar directamente el operador de indexado porque no sabrá si nos referimos a un índice etiquetado o a un índice posicional. Pero `iloc` sí que funcionaría, puesto que eliminarímos así esa ambiguedad:

In [19]:
s.iloc[0]

'Bhutan'

Como los índices pueden no ser únicos, cuando usamos `loc`, Pandas nos devolverá todos los elementos con ese índice:

In [20]:
original_sports = pd.Series({'Archery': 'Bhutan',
                             'Golf': 'Scotland',
                             'Sumo': 'Japan',
                             'Taekwondo': 'South Korea'})
cricket_loving_countries = pd.Series(['Australia',
                                      'Barbados',
                                      'Pakistan',
                                      'England'], 
                                index=['Cricket',
                                          'Cricket',
                                          'Cricket',
                                          'Cricket'])
all_countries = original_sports.append(cricket_loving_countries)
all_countries

Archery           Bhutan
Golf            Scotland
Sumo               Japan
Taekwondo    South Korea
Cricket        Australia
Cricket         Barbados
Cricket         Pakistan
Cricket          England
dtype: object

In [21]:
s = all_countries.loc["Cricket"]
s

Cricket    Australia
Cricket     Barbados
Cricket     Pakistan
Cricket      England
dtype: object

Ojo cuidado (again):

In [22]:
s[0]

IndexError: 0

Aquí el índice no es numérico y aún así, el indexado posicional usando directamente el operador de indexado `[]` no funciona, debido a un bug en la librería de Pandas: https://github.com/pandas-dev/pandas/issues/11201. Sin embargo, `iloc` sigue funcionando como se espera:

In [None]:
s.iloc[0]

<div class="alert alert-block alert-success">
    
**¿Conclusión? Usad `loc[]` o `iloc[]` siempre en lugar del operador de indexado `[]` directamente**

</div>

## Estructuras de datos de Pandas: `dataframes`

<img src="dataframe.png" style="height: 200px">


### Declaración de dataframes

Hay muchas maneras de construir un `dataframe` pero quizá la más popular sea la siguiente: 

In [None]:
data = {'Cost': [22.5, 2.5, 5.0],
        'Item Purchased': ["Dog Food", "Kitty Litter", "Bird Seed"],
        'Name': ["Chris", "Kevin", "Mike"]}
df = pd.DataFrame(data, index=["Store 1", "Store 1", "Store 2"])
df

In [None]:
df.columns

In [None]:
df.index

Los tipos de datos se informan por colummna:

In [None]:
df.info()

Y también existe aquí `shape` como en los arrays de NumPy:

In [None]:
df.shape

### Indexing & slicing 

In [None]:
df

Usamos el operador de indexado con `loc` o `iloc` como en las series, indicando primero fila y luego columna. 

In [None]:
df.loc['Store 2', 'Cost']

In [None]:
df.iloc[2,0]

No indicar columna equivale a seleccionar todas las columnas:

In [None]:
df.loc['Store 1']

Que es equivalente a:


In [None]:
df.loc['Store 1', :]

Para seleccionar todas las filas:

In [None]:
df.loc[:,"Cost"]

Una fila de un `DataFrame` es una `Series`:

In [None]:
print(type(df.loc['Store 2']))
df.loc['Store 2']

También una columna: 

In [None]:
print(type(df.loc[:,'Cost']))
df.loc[:,'Cost']

Se pueden indicar tanto rangos como listas de filas y columnas:

In [None]:
df.loc['Store 1', ['Cost', 'Name']]

In [None]:
df.iloc[0:2, [0, 2]]

Si usamos el operador de indexado directamente, Pandas entenderá que nos referimos a las columnas:

In [None]:
df['Cost']

In [None]:
df.loc['Store 1'] # Da error

**Ojo cuidao.** Porque si hacemos slicing directamente con el operador de indexado, entonces no entenderá que queremos columnas, sino filas:

In [None]:
df.iloc[0:2]

<div class="alert alert-block alert-success">
    
**¿Conclusión? Usad `loc[]` o `iloc[]` siempre en lugar del operador de indexado `[]` directamente**

</div>

Añadir filas o columnas es tan fácil como acceder a esas filas / columnas que no existen y darles valor:

In [23]:
data = {'Cost': [22.5, 2.5, 5.0],
        'Item Purchased': ["Dog Food", "Kitty Litter", "Bird Seed"],
        'Name': ["Chris", "Kevin", "Mike"]}
df = pd.DataFrame(data, index=["Store 1", "Store 1", "Store 2"])
df

Unnamed: 0,Cost,Item Purchased,Name
Store 1,22.5,Dog Food,Chris
Store 1,2.5,Kitty Litter,Kevin
Store 2,5.0,Bird Seed,Mike


In [None]:
df["Units"] = [3,4,6]
df

In [None]:
df.loc["Store 3"] = [3, "Cat Food", "Pepe", 2]

In [None]:
df

## Boolean indexing

Calcado al que aprendimos con NumPy. Aquí también podemos usar listas de valores booleanos para indicar filas / columnas que seleccionar:

In [24]:
data = {'Cost': [22.5, 2.5, 5.0],
        'Item Purchased': ["Dog Food", "Kitty Litter", "Bird Seed"],
        'Name': ["Chris", "Kevin", "Mike"]}
df = pd.DataFrame(data, index=["Store 1", "Store 1", "Store 2"])
df

Unnamed: 0,Cost,Item Purchased,Name
Store 1,22.5,Dog Food,Chris
Store 1,2.5,Kitty Litter,Kevin
Store 2,5.0,Bird Seed,Mike


In [None]:
df.loc[[True,False,True],:]

In [None]:
df[[True,False,True]]

In [None]:
df.loc[:,[True,False,False]]

¿Cuál sería una apliación práctica para esto? Lo vamos a ver con un ejemplo más completo: cargamos un CSV de los Juegos Olímpicos para estos ejemplos. Recoge el medallero de distintos países en los JJOO de invierno, verano y la suma de ambos.

In [25]:
df = pd.read_csv('olympics.csv', index_col = 0, skiprows=1)
df.head()

Unnamed: 0,№ Summer,01 !,02 !,03 !,Total,№ Winter,01 !.1,02 !.1,03 !.1,Total.1,№ Games,01 !.2,02 !.2,03 !.2,Combined total
Afghanistan (AFG),13,0,0,2,2,0,0,0,0,0,13,0,0,2,2
Algeria (ALG),12,5,2,8,15,3,0,0,0,0,15,5,2,8,15
Argentina (ARG),23,18,24,28,70,18,0,0,0,0,41,18,24,28,70
Armenia (ARM),5,1,2,9,12,6,0,0,0,0,11,1,2,9,12
Australasia (ANZ) [ANZ],2,3,4,5,12,0,0,0,0,0,2,3,4,5,12


Le cambiamos el nombres a las columnas para que sea un poco más legible:

In [26]:
for col in df.columns:
    if col[:2]=='01':
        df.rename(columns={col:'Gold' + col[4:]}, inplace=True)
    if col[:2]=='02':
        df.rename(columns={col:'Silver' + col[4:]}, inplace=True)
    if col[:2]=='03':
        df.rename(columns={col:'Bronze' + col[4:]}, inplace=True)
    if col[:1]=='№':
        df.rename(columns={col:'#' + col[1:]}, inplace=True) 
df.head()

Unnamed: 0,# Summer,Gold,Silver,Bronze,Total,# Winter,Gold.1,Silver.1,Bronze.1,Total.1,# Games,Gold.2,Silver.2,Bronze.2,Combined total
Afghanistan (AFG),13,0,0,2,2,0,0,0,0,0,13,0,0,2,2
Algeria (ALG),12,5,2,8,15,3,0,0,0,0,15,5,2,8,15
Argentina (ARG),23,18,24,28,70,18,0,0,0,0,41,18,24,28,70
Armenia (ARM),5,1,2,9,12,6,0,0,0,0,11,1,2,9,12
Australasia (ANZ) [ANZ],2,3,4,5,12,0,0,0,0,0,2,3,4,5,12


¿Qué paises han ganado al menos una medalla de oro en algún juego de verano?

In [27]:
df['Gold'] > 0

Afghanistan (AFG)                               False
Algeria (ALG)                                    True
Argentina (ARG)                                  True
Armenia (ARM)                                    True
Australasia (ANZ) [ANZ]                          True
                                                ...  
Independent Olympic Participants (IOP) [IOP]    False
Zambia (ZAM) [ZAM]                              False
Zimbabwe (ZIM) [ZIM]                             True
Mixed team (ZZX) [ZZX]                           True
Totals                                           True
Name: Gold, Length: 147, dtype: bool

In [28]:
countries_with_gold_in_summer = df[df['Gold'] > 0]
countries_with_gold_in_summer.head(5)

Unnamed: 0,# Summer,Gold,Silver,Bronze,Total,# Winter,Gold.1,Silver.1,Bronze.1,Total.1,# Games,Gold.2,Silver.2,Bronze.2,Combined total
Algeria (ALG),12,5,2,8,15,3,0,0,0,0,15,5,2,8,15
Argentina (ARG),23,18,24,28,70,18,0,0,0,0,41,18,24,28,70
Armenia (ARM),5,1,2,9,12,6,0,0,0,0,11,1,2,9,12
Australasia (ANZ) [ANZ],2,3,4,5,12,0,0,0,0,0,2,3,4,5,12
Australia (AUS) [AUS] [Z],25,139,152,177,468,18,5,3,4,12,43,144,155,181,480


¿Qué países han ganado alguna medalla de oro en invierno y ninguna en verano?

In [29]:
df[(df['Gold.1'] > 0) & (df['Gold'] == 0)]

Unnamed: 0,# Summer,Gold,Silver,Bronze,Total,# Winter,Gold.1,Silver.1,Bronze.1,Total.1,# Games,Gold.2,Silver.2,Bronze.2,Combined total
Liechtenstein (LIE),16,0,0,0,0,18,2,2,5,9,34,2,2,5,9


También podemos seleccionar todos los valores de un DataFrame que cumplen una condición:

In [30]:
df.head(5)

Unnamed: 0,# Summer,Gold,Silver,Bronze,Total,# Winter,Gold.1,Silver.1,Bronze.1,Total.1,# Games,Gold.2,Silver.2,Bronze.2,Combined total
Afghanistan (AFG),13,0,0,2,2,0,0,0,0,0,13,0,0,2,2
Algeria (ALG),12,5,2,8,15,3,0,0,0,0,15,5,2,8,15
Argentina (ARG),23,18,24,28,70,18,0,0,0,0,41,18,24,28,70
Armenia (ARM),5,1,2,9,12,6,0,0,0,0,11,1,2,9,12
Australasia (ANZ) [ANZ],2,3,4,5,12,0,0,0,0,0,2,3,4,5,12


Por ejemplo, seleccionar todos aquellos valores iguales a cero. Esto sería la "máscara booleana":

In [31]:
(df == 0).head(5)

Unnamed: 0,# Summer,Gold,Silver,Bronze,Total,# Winter,Gold.1,Silver.1,Bronze.1,Total.1,# Games,Gold.2,Silver.2,Bronze.2,Combined total
Afghanistan (AFG),False,True,True,False,False,True,True,True,True,True,False,True,True,False,False
Algeria (ALG),False,False,False,False,False,False,True,True,True,True,False,False,False,False,False
Argentina (ARG),False,False,False,False,False,False,True,True,True,True,False,False,False,False,False
Armenia (ARM),False,False,False,False,False,False,True,True,True,True,False,False,False,False,False
Australasia (ANZ) [ANZ],False,False,False,False,False,True,True,True,True,True,False,False,False,False,False


Que al usarla sobre el dataframe, nos deja lo siguiente:

In [32]:
(df[df > 0]).head(5) # Los valores en cuestión toman "NaN"

Unnamed: 0,# Summer,Gold,Silver,Bronze,Total,# Winter,Gold.1,Silver.1,Bronze.1,Total.1,# Games,Gold.2,Silver.2,Bronze.2,Combined total
Afghanistan (AFG),13,,,2.0,2.0,,,,,,13,,,2.0,2
Algeria (ALG),12,5.0,2.0,8.0,15.0,3.0,,,,,15,5.0,2.0,8.0,15
Argentina (ARG),23,18.0,24.0,28.0,70.0,18.0,,,,,41,18.0,24.0,28.0,70
Armenia (ARM),5,1.0,2.0,9.0,12.0,6.0,,,,,11,1.0,2.0,9.0,12
Australasia (ANZ) [ANZ],2,3.0,4.0,5.0,12.0,,,,,,2,3.0,4.0,5.0,12


Podríamos sustituirlos por otra cosa:

In [33]:
df_modified = df.copy()
df_modified[df_modified == 0] = "Zero"
df_modified.head(5)

Unnamed: 0,# Summer,Gold,Silver,Bronze,Total,# Winter,Gold.1,Silver.1,Bronze.1,Total.1,# Games,Gold.2,Silver.2,Bronze.2,Combined total
Afghanistan (AFG),13,Zero,Zero,2,2,Zero,Zero,Zero,Zero,Zero,13,Zero,Zero,2,2
Algeria (ALG),12,5,2,8,15,3,Zero,Zero,Zero,Zero,15,5,2,8,15
Argentina (ARG),23,18,24,28,70,18,Zero,Zero,Zero,Zero,41,18,24,28,70
Armenia (ARM),5,1,2,9,12,6,Zero,Zero,Zero,Zero,11,1,2,9,12
Australasia (ANZ) [ANZ],2,3,4,5,12,Zero,Zero,Zero,Zero,Zero,2,3,4,5,12


Podríamos, por ejemplo, eliminar del dataframe todos aquellos registros que tengan al menos un valor en 0:

In [34]:
df = df[df != 0]
df.head(5)

Unnamed: 0,# Summer,Gold,Silver,Bronze,Total,# Winter,Gold.1,Silver.1,Bronze.1,Total.1,# Games,Gold.2,Silver.2,Bronze.2,Combined total
Afghanistan (AFG),13,,,2.0,2.0,,,,,,13,,,2.0,2
Algeria (ALG),12,5.0,2.0,8.0,15.0,3.0,,,,,15,5.0,2.0,8.0,15
Argentina (ARG),23,18.0,24.0,28.0,70.0,18.0,,,,,41,18.0,24.0,28.0,70
Armenia (ARM),5,1.0,2.0,9.0,12.0,6.0,,,,,11,1.0,2.0,9.0,12
Australasia (ANZ) [ANZ],2,3.0,4.0,5.0,12.0,,,,,,2,3.0,4.0,5.0,12


In [35]:
df = df.dropna()
df.head(5)

Unnamed: 0,# Summer,Gold,Silver,Bronze,Total,# Winter,Gold.1,Silver.1,Bronze.1,Total.1,# Games,Gold.2,Silver.2,Bronze.2,Combined total
Australia (AUS) [AUS] [Z],25,139.0,152.0,177.0,468.0,18.0,5.0,3.0,4.0,12.0,43,144.0,155.0,181.0,480
Austria (AUT),26,18.0,33.0,35.0,86.0,22.0,59.0,78.0,81.0,218.0,48,77.0,111.0,116.0,304
Belarus (BLR),5,12.0,24.0,39.0,75.0,6.0,6.0,4.0,5.0,15.0,11,18.0,28.0,44.0,90
Belgium (BEL),25,37.0,52.0,53.0,142.0,20.0,1.0,1.0,3.0,5.0,45,38.0,53.0,56.0,147
Bulgaria (BUL) [H],19,51.0,85.0,78.0,214.0,19.0,1.0,2.0,3.0,6.0,38,52.0,87.0,81.0,220


In [36]:
df.dropna?

[0;31mSignature:[0m [0mdf[0m[0;34m.[0m[0mdropna[0m[0;34m([0m[0maxis[0m[0;34m=[0m[0;36m0[0m[0;34m,[0m [0mhow[0m[0;34m=[0m[0;34m'any'[0m[0;34m,[0m [0mthresh[0m[0;34m=[0m[0;32mNone[0m[0;34m,[0m [0msubset[0m[0;34m=[0m[0;32mNone[0m[0;34m,[0m [0minplace[0m[0;34m=[0m[0;32mFalse[0m[0;34m)[0m[0;34m[0m[0;34m[0m[0m
[0;31mDocstring:[0m
Remove missing values.

See the :ref:`User Guide <missing_data>` for more on which values are
considered missing, and how to work with missing data.

Parameters
----------
axis : {0 or 'index', 1 or 'columns'}, default 0
    Determine if rows or columns which contain missing values are
    removed.

    * 0, or 'index' : Drop rows which contain missing values.
    * 1, or 'columns' : Drop columns which contain missing value.

    .. deprecated:: 0.23.0

       Pass tuple or list to drop on multiple axes.
       Only a single axis is allowed.

how : {'any', 'all'}, default 'any'
    Determine if row or column i

## Ausencia de valores

En Python, `None` es un objeto que representa la ausencia de valor (como "null" en otros lenguajes):

In [37]:
animals = ['Tigre', 'Oso', None]
pd.Series(animals)

0    Tigre
1      Oso
2     None
dtype: object

NumPy y Pandas, en cambio, para valores numericos cambiarán ese `None` por `NaN` ("Not a Number"). A diferencia de `None`, que sería de tipo `object`, NaN es un valor especial que está definido como un número en coma flotante ("float"), lo cual es interesante por razones de eficiencia computacional.

In [38]:
numbers = [1, 2, None]
pd.Series(numbers)

0    1.0
1    2.0
2    NaN
dtype: float64

**Pregunta:** ¿Qué devolvera el siguiente código?

In [39]:
None == None

True

Entonces... ?

In [40]:
animals = pd.Series(['Tigre', 'Oso', None])
animals[animals == None]

Series([], dtype: object)

**Pregunta:** ¿Qué devolverá el siguiente código?

In [41]:
import numpy as np
np.nan == np.nan







False

Para evitar caer en este sindios, Pandas ofrece la función de conveniencia `isna`, que tiene en cuenta todo:

In [42]:
animals = pd.Series(['Tigre', 'Oso', None, np.nan])
animals

0    Tigre
1      Oso
2     None
3      NaN
dtype: object

In [43]:
animals.isna()

0    False
1    False
2     True
3     True
dtype: bool

BUT...

In [None]:
animals = pd.Series(['Tigre', 'Oso', None, np.nan, np.inf])
animals

In [44]:
animals.isna()

0    False
1    False
2     True
3     True
dtype: bool

Notice, however:

In [None]:
animals = pd.Series(['Tigre', 'Oso', None, np.nan, np.inf, ""])
animals

In [None]:
animals.isna()