# Pandas I

- Pandas es una librería para el manejo de datos estructurados (*dataframes*)
- Pandas está construida sobre NumPy, por lo que incorpora muchas de sus funciones.Sin embargo, si buscamos algo más específico podemos importar NumPy.
- El nombre Pandas deriva de **PANel DAta**.
- Desarrollada en 2008 por Wes McKinney como herramienta para el análisis cuantitativo de series temporales basadas en información financiera (cotizaciones).

- Podemos instalar Pandas mediante el código:

`conda install pandas`

In [3]:
import pandas as pd

- En Numpy vimos que su objeto básico son los **array**. 
- En Pandas hay dos clases básicas: 
    - **Series** -> Información unidimensional
    - **Dataframes** -> Información tabular

## Series

Estructura de datos que contiene:
- Un numpy array de datos
- Un array de etiquetas (índice).
    - En el ejemplo de debajo se pueden ver en la columna de la izquierda. Si no son especificados, establece por defecto números comenzando desde el 0 (0, 1, 2, 3...)

Es decir, las series son en definitiva **arrays**.

In [2]:
series = pd.Series([2, 3, 5, -8])
series

0    2
1    3
2    5
3   -8
dtype: int64

- El constructor de la clase (\__init__) puede recibir los siguientes parámetros (además de otros)
    - `data`: Datos a almacenar
    - `index`: Índice para los datos (opcional)
    - `dtype`: Tipo de dato para el array de numpy (opcional)
    - `name`: Nombre de la serie (opcional)

In [3]:
pd.Series([0, 1, 2], index = ['a', 'b', 'c'], dtype='object', name='mi_serie')

a    0
b    1
c    2
Name: mi_serie, dtype: object

- Podemos crear series a partir de un diccionario (muy útil)

In [4]:
dic = {key: value for key, value in zip(['a', 'b', 'c'],[0, 1, 2])}
dic

{'a': 0, 'b': 1, 'c': 2}

In [5]:
series = pd.Series(dic)
series

a    0
b    1
c    2
dtype: int64

- Disponemos de dos atributos para recuperar los datos y el índice de una serie de forma independiente

In [6]:
series.values

array([0, 1, 2], dtype=int64)

In [7]:
type(series.values)

numpy.ndarray

In [8]:
series.index

Index(['a', 'b', 'c'], dtype='object')

In [9]:
type(series.index)

pandas.core.indexes.base.Index

- Se pueden extraer los elementos de la serie utilizando el índice

In [11]:
series['b']

1

- Podemos modificar elementos puntuales de la serie

In [12]:
series['c'] = 1000
series

a       0
b       1
c    1000
dtype: int64

- No podemos modificar elementos puntuales del índice. Es decir, no me deja cambiar el primer índice por z.

In [13]:
series.index[0] = 'z'

TypeError: Index does not support mutable operations

- Pero si podemos sustituir el índice completo por otro

In [14]:
series.index = ['a_1', 'b_1', 'c_1']
series

a_1       0
b_1       1
c_1    1000
dtype: int64

- Mayormente el comportamiento en operaciones comunes es como el de un numpy array
- Sin embargo, el resultado de operaciones vectorizadas es una serie y no un numpy array, aunque el tipo ahora es booleano.

In [15]:
series > 0

a_1    False
b_1     True
c_1     True
dtype: bool

In [16]:
series * 2

a_1       0
b_1       2
c_1    2000
dtype: int64

- En general, debemos asegurarnos de cómo está implementada la operación

In [17]:
series

a_1       0
b_1       1
c_1    1000
dtype: int64

Pero esto me dará error, ya que `in series` busca en el índice, no en valores

In [18]:
1 in series

False

In [19]:
'a_1' in series

True

In [20]:
1 in series.values

True

- Podemos aplicar operaciones de numpy directamente sobre la serie importando NumPy
- Como hemos dicho, Pandas está construido desde NumPy y por eos son totalmente compatibles

In [13]:
import numpy as np

In [22]:
series = pd.Series(np.random.rand(5))
series

0    0.496185
1    0.453297
2    0.118866
3    0.809311
4    0.892119
dtype: float64

In [23]:
np.exp(series)

0    1.642443
1    1.573491
2    1.126219
3    2.246360
4    2.440295
dtype: float64

- Podemos acceder a través de los métodos de la serie a varias funciones de agregación

In [24]:
series.mean()

0.553955483955973

In [25]:
series.median()

0.496184954189569

- Las estructuras de pandas están optimizadas, pero en general es mucho más rápido trabajar directamente con numpy arrays
- Si necesitamos velocidad, numpy es con diferencia la elección adecuada
- Sin embargo,hay que pasar la información de manera adecuada y optimizada:

In [26]:
%%timeit
series.mean()

91 µs ± 2.21 µs per loop (mean ± std. dev. of 7 runs, 10000 loops each)


In [27]:
%%timeit
np.mean(series)

110 µs ± 7.55 µs per loop (mean ± std. dev. of 7 runs, 10000 loops each)


- Es decir, indicando que calcule sobre los datos que queremos estudiar, no sobre toda la serie

In [28]:
%%timeit
np.mean(series.values)

8.65 µs ± 238 ns per loop (mean ± std. dev. of 7 runs, 100000 loops each)


- Existen muchísimos métodos y atributos asociados a las series
- Se van descubriendo a medida que los vamos necesitando

In [29]:
from utils import midir
midir(series)

['T',
 '_AXIS_ALIASES',
 '_AXIS_IALIASES',
 '_AXIS_LEN',
 '_AXIS_NAMES',
 '_AXIS_NUMBERS',
 '_AXIS_ORDERS',
 '_AXIS_REVERSED',
 '_HANDLED_TYPES',
 '_accessors',
 '_add_numeric_operations',
 '_add_series_only_operations',
 '_add_series_or_dataframe_operations',
 '_agg_by_level',
 '_agg_examples_doc',
 '_agg_see_also_doc',
 '_aggregate',
 '_aggregate_multiple_funcs',
 '_align_frame',
 '_align_series',
 '_binop',
 '_box_item_values',
 '_builtin_table',
 '_can_hold_na',
 '_check_inplace_setting',
 '_check_is_chained_assignment_possible',
 '_check_label_or_level_ambiguity',
 '_check_percentile',
 '_check_setitem_copy',
 '_clear_item_cache',
 '_clip_with_one_bound',
 '_clip_with_scalar',
 '_consolidate',
 '_consolidate_inplace',
 '_construct_axes_dict',
 '_construct_axes_dict_from',
 '_construct_axes_from_arguments',
 '_constructor',
 '_constructor_expanddim',
 '_constructor_sliced',
 '_convert',
 '_create_indexer',
 '_cython_table',
 '_data',
 '_deprecations',
 '_dir_additions',
 '_dir_dele

## Dataframes

- Aunque tengamos solamente una columna de datos, generalmente trabajaremos con un Data Frame
    - Eso quiere decir que las series se usa, pero existe cierta predilección por los Dataframes.
    - Sin embargo, no es lo mismo una serie (que siempre es una columna), que un data frame de una columna.
- Los dataframes tienen una estructura tabular
- Tiene un índice para las filas y otro para las columnas
- Cada columna puede contener un tipo de numpy array diferente

- El constructor de la clase puede recibir los siguientes parámetros (además de otros)
    - `data`: Datos a almacenar
    - `index`: Índice para los datos (opcional)
    - `columns`: Etiquetas de las columnas del dataframe (opcional)
    - `dtype`: Tipo de dato para el array de numpy (opcional)
- Es decir, es prácticamente idéntico a las series, pero con *"columns"* en vez de *"names"*.

- La construcción del dataframe suele hacerse a partir de diccionarios (aunque hay otras formas)

In [1]:
data = {'ciudad': ['Madrid', 'Barcelona', 'Bilbao', 'Valencia', 'Sevilla', 'Teruel', 'Soria'],
        'pop': [5.2, 4.8, 2.1, 1.8, 2, 0.8, 0.2],
        'bolsa': [True, True, True, True, False, False, False]}

In [4]:
df = pd.DataFrame(data)
df

Unnamed: 0,ciudad,pop,bolsa
0,Madrid,5.2,True
1,Barcelona,4.8,True
2,Bilbao,2.1,True
3,Valencia,1.8,True
4,Sevilla,2.0,False
5,Teruel,0.8,False
6,Soria,0.2,False


Puedo hacer que el índice no empiece por 0.

In [14]:
df = pd.DataFrame(data, index = np.arange(1, 8))
df

Unnamed: 0,ciudad,pop,bolsa
1,Madrid,5.2,True
2,Barcelona,4.8,True
3,Bilbao,2.1,True
4,Valencia,1.8,True
5,Sevilla,2.0,False
6,Teruel,0.8,False
7,Soria,0.2,False


- Algunas funcionalidades básicas

In [27]:
df.head()

NameError: name 'dtype' is not defined

In [33]:
df.head(2)

Unnamed: 0,ciudad,pop,bolsa
1,Madrid,5.2,True
2,Barcelona,4.8,True


In [34]:
df.tail()

Unnamed: 0,ciudad,pop,bolsa
3,Bilbao,2.1,True
4,Valencia,1.8,True
5,Sevilla,2.0,False
6,Teruel,0.8,False
7,Soria,0.2,False


- Al igual que en las series, tenemos acceso al índice y en este caso también a las columnas

In [35]:
df.index

Int64Index([1, 2, 3, 4, 5, 6, 7], dtype='int64')

In [36]:
df.columns

Index(['ciudad', 'pop', 'bolsa'], dtype='object')

In [37]:
df.values

array([['Madrid', 5.2, True],
       ['Barcelona', 4.8, True],
       ['Bilbao', 2.1, True],
       ['Valencia', 1.8, True],
       ['Sevilla', 2.0, False],
       ['Teruel', 0.8, False],
       ['Soria', 0.2, False]], dtype=object)

- Podemos cambiar el nombre de las columnas (de forma completa) no individualmente

In [16]:
df.columns[0] = 'city'

TypeError: Index does not support mutable operations

In [17]:
df.columns = ['city', 'pop', 'stock']
df

Unnamed: 0,city,pop,bolsa
1,Madrid,5.2,True
2,Barcelona,4.8,True
3,Bilbao,2.1,True
4,Valencia,1.8,True
5,Sevilla,2.0,False
6,Teruel,0.8,False
7,Soria,0.2,False


- Si tengo un data frame con muchas columnas, puedo cambiar sus nombres con imaginación.

- **IDEA** Puedo crear una función para eliminarlas de manera sencilla

In [6]:
df.columns = ['ciudad', 'pop', 'bolsa']

#Hago un unpacking del array
col = [*df.columns]

#Busco el índice del elemento que quiero cambiar
index = col.index("ciudad")

#Elimino el elemento
col.remove("ciudad")

#Introduzco el nuevo en su lugar
col.insert(index,"city")
col

#Reemplazo la lista de los nombres de columnas por la nueva lista
df.columns = col
df

Unnamed: 0,city,pop,bolsa
0,Madrid,5.2,True
1,Barcelona,4.8,True
2,Bilbao,2.1,True
3,Valencia,1.8,True
4,Sevilla,2.0,False
5,Teruel,0.8,False
6,Soria,0.2,False


- Podemos recuperar los elementos de las columnas de varias formas

In [9]:
df['city']

0       Madrid
1    Barcelona
2       Bilbao
3     Valencia
4      Sevilla
5       Teruel
6        Soria
Name: city, dtype: object

In [10]:
df.city

0       Madrid
1    Barcelona
2       Bilbao
3     Valencia
4      Sevilla
5       Teruel
6        Soria
Name: city, dtype: object

In [42]:
type(df.city)

pandas.core.series.Series

- Existen dos métodos para acceder a los elementos del dataframe
    - `loc` -> Accedemos a través del valor de los índices
    - `iloc` -> Accedemos con las 'coordenadas' del elemento

In [43]:
df

Unnamed: 0,city,pop,bolsa
1,Madrid,5.2,True
2,Barcelona,4.8,True
3,Bilbao,2.1,True
4,Valencia,1.8,True
5,Sevilla,2.0,False
6,Teruel,0.8,False
7,Soria,0.2,False


En el ejemplo de debajo utilizo `loc` porque la fila se llama "1" y la columna se llama "pop"

In [44]:
df.loc[1, 'pop']

5.2

In [46]:
df['pop'].loc[1]

5.2

O con coordenadas de Python (fila 0, columna 1)

In [45]:
df.iloc[0, 1]

5.2

Así puedo pedir todas las filas de la columna bolsa

In [47]:
df.loc[:, 'bolsa']

1     True
2     True
3     True
4     True
5    False
6    False
7    False
Name: bolsa, dtype: bool

- Podemos asignar valores a los elementos del dataframe o a las columnas enteras

In [48]:
df

Unnamed: 0,city,pop,bolsa
1,Madrid,5.2,True
2,Barcelona,4.8,True
3,Bilbao,2.1,True
4,Valencia,1.8,True
5,Sevilla,2.0,False
6,Teruel,0.8,False
7,Soria,0.2,False


In [49]:
df.loc[1, 'pop'] = 100
df

Unnamed: 0,city,pop,bolsa
1,Madrid,100.0,True
2,Barcelona,4.8,True
3,Bilbao,2.1,True
4,Valencia,1.8,True
5,Sevilla,2.0,False
6,Teruel,0.8,False
7,Soria,0.2,False


In [16]:
df['nueva'] = None
df

Unnamed: 0,city,pop,bolsa,nueva
0,Madrid,5.2,True,
1,Barcelona,4.8,True,
2,Bilbao,2.1,True,
3,Valencia,1.8,True,
4,Sevilla,2.0,False,
5,Teruel,0.8,False,
6,Soria,0.2,False,


In [51]:
df.nueva = 1
df

Unnamed: 0,city,pop,bolsa,nueva
1,Madrid,100.0,True,1
2,Barcelona,4.8,True,1
3,Bilbao,2.1,True,1
4,Valencia,1.8,True,1
5,Sevilla,2.0,False,1
6,Teruel,0.8,False,1
7,Soria,0.2,False,1


- Pero ojo con la asignación. Tengo que denominarla correctamente
- El código de debajo está mal: no estoy añadiendo una columna como quiero, sino definiendo un atributo que se llama "masnueva".
    - Es decir, sin la columna creada:
        - df.masnueva = "Hola!" ---> Defino un nuevo atributo
        - df["masnueva"] = "Hola!" ---> Creo una nueva columna

In [52]:
df.masnueva = 'Hola!'
df

Unnamed: 0,city,pop,bolsa,nueva
1,Madrid,100.0,True,1
2,Barcelona,4.8,True,1
3,Bilbao,2.1,True,1
4,Valencia,1.8,True,1
5,Sevilla,2.0,False,1
6,Teruel,0.8,False,1
7,Soria,0.2,False,1


Como se puede ver, estoy definiendo un atributo:

In [53]:
df.masnueva

'Hola!'

Lo correcto es:

In [None]:
df["masnueva"] = "Hola!"

- Si asignamos a una columna una serie, la información se ajusta de forma que los índices coincidan

In [55]:
series = pd.Series([2, 3, 4], index=[6, 2, 3])
df['nueva'] = series
df

Unnamed: 0,city,pop,bolsa,nueva
1,Madrid,100.0,True,
2,Barcelona,4.8,True,3.0
3,Bilbao,2.1,True,4.0
4,Valencia,1.8,True,
5,Sevilla,2.0,False,
6,Teruel,0.8,False,2.0
7,Soria,0.2,False,


- Para los índices en los que no hay información, se completan con NaN

In [56]:
df.iloc[0, -1]

nan

In [57]:
type(_)

numpy.float64

- Podemos realizar asignaciones más complejas para **filtrar**
    - Se puede usar `loc` o no usarlo dependiendo de las necesidades

In [12]:
df[df.index>3]

Unnamed: 0,city,pop,bolsa
4,Sevilla,2.0,False
5,Teruel,0.8,False
6,Soria,0.2,False


In [11]:
df.loc[df.index>3]

Unnamed: 0,city,pop,bolsa
4,Sevilla,2.0,False
5,Teruel,0.8,False
6,Soria,0.2,False


In [18]:
df.loc[df.index>3, 'nueva'] = 5
df

Unnamed: 0,city,pop,bolsa,nueva
0,Madrid,5.2,True,
1,Barcelona,4.8,True,
2,Bilbao,2.1,True,
3,Valencia,1.8,True,
4,Sevilla,2.0,False,5.0
5,Teruel,0.8,False,5.0
6,Soria,0.2,False,5.0


Como estoy filtrando filas y columnas, utilizo `loc` o `iloc`.
Como estoy filtrando por el índice también puede realizarse de esta manera.

In [20]:
df.loc[3:,"nueva"] = 6

In [21]:
df

Unnamed: 0,city,pop,bolsa,nueva
0,Madrid,5.2,True,
1,Barcelona,4.8,True,
2,Bilbao,2.1,True,
3,Valencia,1.8,True,6.0
4,Sevilla,2.0,False,6.0
5,Teruel,0.8,False,6.0
6,Soria,0.2,False,6.0


- Podemos eliminar columnas directamente

In [61]:
del df['nueva']
df

Unnamed: 0,city,pop,bolsa
1,Madrid,100.0,True
2,Barcelona,4.8,True
3,Bilbao,2.1,True
4,Valencia,1.8,True
5,Sevilla,2.0,False
6,Teruel,0.8,False
7,Soria,0.2,False


- O tilizando el método `drop` que sirve para eliminar filas o columnas
- Pero ojo, este método no es ***inplace*** salvo que se especifique

In [62]:
df.drop('pop', axis=1)
df

Unnamed: 0,city,pop,bolsa
1,Madrid,100.0,True
2,Barcelona,4.8,True
3,Bilbao,2.1,True
4,Valencia,1.8,True
5,Sevilla,2.0,False
6,Teruel,0.8,False
7,Soria,0.2,False


In [76]:
df_2 = df.drop('pop', axis=1)
df_2

Unnamed: 0,city,bolsa
1,Madrid,True
2,Barcelona,True
3,Bilbao,True
4,Valencia,True
5,Sevilla,False
6,Teruel,False
7,Soria,False


- Muchos de los métodos de pandas tienen un parámetro `inplace` que especifica si la operación debe hacerse inpalce o no.

In [63]:
df.drop(5, axis=0, inplace=True)
df

Unnamed: 0,city,pop,bolsa
1,Madrid,100.0,True
2,Barcelona,4.8,True
3,Bilbao,2.1,True
4,Valencia,1.8,True
6,Teruel,0.8,False
7,Soria,0.2,False


In [64]:
df.drop([1, 2, 7], axis=0, inplace=True)
df

Unnamed: 0,city,pop,bolsa
3,Bilbao,2.1,True
4,Valencia,1.8,True
6,Teruel,0.8,False


- Podemos recuperar los datos como un diccionario de Python
- Es similar al `to_list` de NumPy

In [65]:
df.to_dict()

{'city': {3: 'Bilbao', 4: 'Valencia', 6: 'Teruel'},
 'pop': {3: 2.1, 4: 1.8, 6: 0.8},
 'bolsa': {3: True, 4: True, 6: False}}

- Puedo transponerlo dependieno de cómo lo quiera:

In [66]:
df.T.to_dict()

{3: {'city': 'Bilbao', 'pop': 2.1, 'bolsa': True},
 4: {'city': 'Valencia', 'pop': 1.8, 'bolsa': True},
 6: {'city': 'Teruel', 'pop': 0.8, 'bolsa': False}}

## Extra: Beautiful Soup

- Aunque no se verá en el máster, la librería **`Beautiful Soup`** es muy utilizada para obtener tablas desde Internet.
- Como siempre, antes de descargarla debemos estudiar el manual oficial por si requiere versiones determinadas de Python u otras dependencias que la permitan funcionar de manera correcta