# Pandas I

- Librería pra el manejo de datos estructurados (dataframes)
- El nombre deriva de **panel data**.
- Desarrollada en 2008 por Wes McKinney como herramienta para el análisis cuantitativo de series temporales basadas en información financiera (cotizaciones).

In [1]:
import pandas as pd

- Las clases básicas de pandas son:
    - **Series** -> Información unidimensional
    - **Dataframes** -> Información tabular

## Series

Estructura de datos que contiene:
- Un numpy array de datos
- Un array de etiquetas (índice)

In [2]:
series = pd.Series([2, 3, 5, -8])
series

0    2
1    3
2    5
3   -8
dtype: int64

- El constructor de la clase (metodo __init__) puede recibir los siguientes parámetros (además de otros)
    - `data`: Datos a almacenar
    - `index`: Índice para los datos (opcional)
    - `dtype`: Tipo de dato para el array de numpy (opcional)
    - `name`: Nombre de la serie (opcional)

In [3]:
pd.Series([0, 1, 2], index = ['a', 'b', 'c'], dtype='object', name='mi_serie')

a    0
b    1
c    2
Name: mi_serie, dtype: object

- Podemos crear series a partir de un diccionario (muy útil)

In [4]:
dic = {key: value for key, value in zip(['a', 'b', 'c'],[0, 1, 2])}
dic

{'a': 0, 'b': 1, 'c': 2}

In [5]:
series = pd.Series(dic)
series

a    0
b    1
c    2
dtype: int64

- Disponemos de dos atributos para recuperar los datos y el índice de una serie de forma independiente

In [6]:
series.values

array([0, 1, 2])

In [7]:
type(series.values)

numpy.ndarray

In [8]:
series.index

Index(['a', 'b', 'c'], dtype='object')

In [9]:
type(series.index)

pandas.core.indexes.base.Index

In [10]:
from utils import midir
midir(series.index)

['T',
 '_accessors',
 '_add_comparison_methods',
 '_add_logical_methods',
 '_add_logical_methods_disabled',
 '_add_numeric_methods',
 '_add_numeric_methods_add_sub_disabled',
 '_add_numeric_methods_binary',
 '_add_numeric_methods_disabled',
 '_add_numeric_methods_unary',
 '_assert_can_do_op',
 '_assert_can_do_setop',
 '_assert_take_fillable',
 '_attributes',
 '_can_hold_identifiers_and_holds_name',
 '_can_hold_na',
 '_can_reindex',
 '_cleanup',
 '_coerce_scalar_to_index',
 '_coerce_to_ndarray',
 '_comparables',
 '_concat',
 '_concat_same_dtype',
 '_constructor',
 '_convert_arr_indexer',
 '_convert_can_do_setop',
 '_convert_for_op',
 '_convert_index_indexer',
 '_convert_list_indexer',
 '_convert_listlike_indexer',
 '_convert_scalar_indexer',
 '_convert_slice_indexer',
 '_convert_tolerance',
 '_data',
 '_deepcopy_if_needed',
 '_defer_to_indexing',
 '_deprecations',
 '_dir_additions',
 '_dir_deletions',
 '_engine',
 '_engine_type',
 '_evaluate_compare',
 '_evaluate_with_datetime_like',
 '

- Se pueden extraer los elementos de la serie utilizando el índice

In [11]:
series['b']

1

- Podemos modificar elementos puntuales de la serie

In [12]:
series['c'] = 1000
series

a       0
b       1
c    1000
dtype: int64

- No podemos modificar elementos puntuales del índice

In [13]:
series.index[0] = 'z'

TypeError: Index does not support mutable operations

- Pero si podemos sustituir el índice completo por otro

In [14]:
series.index = ['a_1', 'b_1', 'c_1']
series

a_1       0
b_1       1
c_1    1000
dtype: int64

- Mayormente el comportamiento en operaciones comunes es como el de un numpy array
- Sin embargo, el resultado de operaciones vectorizadas es una serie y no un numpy array.

In [15]:
series > 0

a_1    False
b_1     True
c_1     True
dtype: bool

In [16]:
series * 2

a_1       0
b_1       2
c_1    2000
dtype: int64

- En general, debemos asegurarnos de cómo está implementada la operación

In [17]:
series

a_1       0
b_1       1
c_1    1000
dtype: int64

In [None]:
busca en los indices no en los valores:

In [18]:
1 in series

False

In [19]:
'a_1' in series

True

In [20]:
1 in series.values

True

- Podemos aplicar operaciones de numpy directamente sobre la serie

In [21]:
import numpy as np

In [22]:
series = pd.Series(np.random.rand(5))
series

0    0.429971
1    0.108539
2    0.057355
3    0.772422
4    0.089587
dtype: float64

In [23]:
np.exp(series)

0    1.537214
1    1.114648
2    1.059032
3    2.165003
4    1.093723
dtype: float64

- Podemos acceder a través de los métodos de la serie a varias funciones de agregación

In [24]:
series.mean()

0.2915747786542954

In [25]:
series.median()

0.10853890287693335

In [26]:
%%timeit
series.mean()

64.8 µs ± 2.44 µs per loop (mean ± std. dev. of 7 runs, 10000 loops each)


In [27]:
%%timeit
np.mean(series)

73.2 µs ± 2.86 µs per loop (mean ± std. dev. of 7 runs, 10000 loops each)


In [28]:
%%timeit
np.mean(series.values)

16.8 µs ± 795 ns per loop (mean ± std. dev. of 7 runs, 10000 loops each)


- Las estructuras de pandas están optimizadas, pero en general es mucho más rápido trabajar directamente con numpy arrays
- Si necesitamos velocidad, numpy es con diferencia la elección adecuada

- Existen muchísimos métodos y atributos asociados a las series
- Se van descubriendo a medida que los vamos necesitando

In [29]:
from utils import midir
midir(series)

['T',
 '_AXIS_ALIASES',
 '_AXIS_IALIASES',
 '_AXIS_LEN',
 '_AXIS_NAMES',
 '_AXIS_NUMBERS',
 '_AXIS_ORDERS',
 '_AXIS_REVERSED',
 '_HANDLED_TYPES',
 '_accessors',
 '_add_numeric_operations',
 '_add_series_only_operations',
 '_add_series_or_dataframe_operations',
 '_agg_by_level',
 '_agg_examples_doc',
 '_agg_see_also_doc',
 '_aggregate',
 '_aggregate_multiple_funcs',
 '_align_frame',
 '_align_series',
 '_binop',
 '_box_item_values',
 '_builtin_table',
 '_can_hold_na',
 '_check_inplace_setting',
 '_check_is_chained_assignment_possible',
 '_check_label_or_level_ambiguity',
 '_check_percentile',
 '_check_setitem_copy',
 '_clear_item_cache',
 '_clip_with_one_bound',
 '_clip_with_scalar',
 '_consolidate',
 '_consolidate_inplace',
 '_construct_axes_dict',
 '_construct_axes_dict_from',
 '_construct_axes_from_arguments',
 '_constructor',
 '_constructor_expanddim',
 '_constructor_sliced',
 '_convert',
 '_create_indexer',
 '_cython_table',
 '_data',
 '_deprecations',
 '_dir_additions',
 '_dir_dele

## Dataframes

- Estructura tabular
- Tiene un índice para las filas y otro para las columnas
- Cada columna puede contener un tipo de numpy diferente

- El constructor de la clase puede recibir los siguientes parámetros (además de otros)
    - `data`: Datos a almacenar
    - `index`: Índice para los datos (opcional)
    - `columns`: Etiquetas de las columnas del dataframe (opcional)
    - `dtype`: Tipo de dato para el array de numpy (opcional)

- La construcción del dataframe suele hacerse a partir de diccionarios (aunque hay otras formas)

In [29]:
data = {'ciudad': ['Madrid', 'Barcelona', 'Bilbao', 'Valencia', 'Sevilla', 'Teruel', 'Soria'],
        'pop': [5.2, 4.8, 2.1, 1.8, 2, 0.8, 0.2],
        'bolsa': [True, True, True, True, False, False, False]}

In [30]:
df = pd.DataFrame(data, index = np.arange(1, 8))
df

Unnamed: 0,ciudad,pop,bolsa
1,Madrid,5.2,True
2,Barcelona,4.8,True
3,Bilbao,2.1,True
4,Valencia,1.8,True
5,Sevilla,2.0,False
6,Teruel,0.8,False
7,Soria,0.2,False


- Algunas funcionalidades básicas

In [32]:
df.head()

Unnamed: 0,ciudad,pop,bolsa
1,Madrid,5.2,True
2,Barcelona,4.8,True
3,Bilbao,2.1,True
4,Valencia,1.8,True
5,Sevilla,2.0,False


In [33]:
df.head(2)

Unnamed: 0,ciudad,pop,bolsa
1,Madrid,5.2,True
2,Barcelona,4.8,True


In [34]:
df.tail()

Unnamed: 0,ciudad,pop,bolsa
3,Bilbao,2.1,True
4,Valencia,1.8,True
5,Sevilla,2.0,False
6,Teruel,0.8,False
7,Soria,0.2,False


- Al igual que en las series, tenemos acceso al índice y en este caso también a las columnas

In [35]:
df.index

Int64Index([1, 2, 3, 4, 5, 6, 7], dtype='int64')

In [36]:
df.columns

Index(['ciudad', 'pop', 'bolsa'], dtype='object')

In [37]:
df.values

array([['Madrid', 5.2, True],
       ['Barcelona', 4.8, True],
       ['Bilbao', 2.1, True],
       ['Valencia', 1.8, True],
       ['Sevilla', 2.0, False],
       ['Teruel', 0.8, False],
       ['Soria', 0.2, False]], dtype=object)

- Podemos cambiar el nombre de las columnas (de forma completa) no individualmente

In [38]:
df.columns[0] = 'city'

TypeError: Index does not support mutable operations

In [39]:
df.columns = ['city', 'pop', 'bolsa']
df

Unnamed: 0,city,pop,bolsa
1,Madrid,5.2,True
2,Barcelona,4.8,True
3,Bilbao,2.1,True
4,Valencia,1.8,True
5,Sevilla,2.0,False
6,Teruel,0.8,False
7,Soria,0.2,False


- Podemos recuperar los elementos de las columnas de varias formas

In [40]:
df['city']

1       Madrid
2    Barcelona
3       Bilbao
4     Valencia
5      Sevilla
6       Teruel
7        Soria
Name: city, dtype: object

In [41]:
df.city

1       Madrid
2    Barcelona
3       Bilbao
4     Valencia
5      Sevilla
6       Teruel
7        Soria
Name: city, dtype: object

In [42]:
type(df.city)

pandas.core.series.Series

- Existen dos métodos para acceder a los elementos del dataframe
    - `loc` -> Accedemos a través del valor de los índices
    - `iloc` -> Accedemos con las 'coordenadas' del elemento

In [42]:
df

Unnamed: 0,city,pop,bolsa
1,Madrid,5.2,True
2,Barcelona,4.8,True
3,Bilbao,2.1,True
4,Valencia,1.8,True
5,Sevilla,2.0,False
6,Teruel,0.8,False
7,Soria,0.2,False


In [43]:
df.loc[1, 'pop']

5.2

In [44]:
df.iloc[0, 1]

5.2

In [45]:
df['pop'].loc[1]

5.2

In [46]:
df.loc[:, 'bolsa']

1     True
2     True
3     True
4     True
5    False
6    False
7    False
Name: bolsa, dtype: bool

- Podemos asignar valores a los elementos del dataframe o a las columnas enteras

In [47]:
df

Unnamed: 0,city,pop,bolsa
1,Madrid,5.2,True
2,Barcelona,4.8,True
3,Bilbao,2.1,True
4,Valencia,1.8,True
5,Sevilla,2.0,False
6,Teruel,0.8,False
7,Soria,0.2,False


In [48]:
df.loc[1, 'pop'] = 100
df

Unnamed: 0,city,pop,bolsa
1,Madrid,100.0,True
2,Barcelona,4.8,True
3,Bilbao,2.1,True
4,Valencia,1.8,True
5,Sevilla,2.0,False
6,Teruel,0.8,False
7,Soria,0.2,False


 mejor usar esta forma que df.nueva ya que a veces crea un atributo y n una columna y da problemas


In [49]:
df['nueva'] = None
df

Unnamed: 0,city,pop,bolsa,nueva
1,Madrid,100.0,True,
2,Barcelona,4.8,True,
3,Bilbao,2.1,True,
4,Valencia,1.8,True,
5,Sevilla,2.0,False,
6,Teruel,0.8,False,
7,Soria,0.2,False,


In [50]:
df.nueva = 1
df

Unnamed: 0,city,pop,bolsa,nueva
1,Madrid,100.0,True,1
2,Barcelona,4.8,True,1
3,Bilbao,2.1,True,1
4,Valencia,1.8,True,1
5,Sevilla,2.0,False,1
6,Teruel,0.8,False,1
7,Soria,0.2,False,1


In [51]:
df.masnueva = 'Hola!'
df

Unnamed: 0,city,pop,bolsa,nueva
1,Madrid,100.0,True,1
2,Barcelona,4.8,True,1
3,Bilbao,2.1,True,1
4,Valencia,1.8,True,1
5,Sevilla,2.0,False,1
6,Teruel,0.8,False,1
7,Soria,0.2,False,1


In [52]:
df.masnueva

'Hola!'

- Si asignamos a una columna una serie, la información se ajusta de forma que los índices coincidan

In [56]:
series = pd.Series([2, 3, 4], index=[6, 2, 3])
df['nueva'] = series
df

Unnamed: 0,city,pop,bolsa,nueva
1,Madrid,100.0,True,
2,Barcelona,4.8,True,3.0
3,Bilbao,2.1,True,4.0
4,Valencia,1.8,True,
5,Sevilla,2.0,False,
6,Teruel,0.8,False,2.0
7,Soria,0.2,False,


- Para los índices en los que no hay información, se completan con NaN

In [57]:
df.iloc[0, -1]

nan

In [58]:
type(_)

numpy.float64

- Podemos realizar asignaciones más complejas

In [59]:
df.loc[df.index>3]

Unnamed: 0,city,pop,bolsa,nueva
4,Valencia,1.8,True,
5,Sevilla,2.0,False,
6,Teruel,0.8,False,2.0
7,Soria,0.2,False,


In [60]:
df.loc[df.index>3, 'nueva'] = 5
df

Unnamed: 0,city,pop,bolsa,nueva
1,Madrid,100.0,True,
2,Barcelona,4.8,True,3.0
3,Bilbao,2.1,True,4.0
4,Valencia,1.8,True,5.0
5,Sevilla,2.0,False,5.0
6,Teruel,0.8,False,5.0
7,Soria,0.2,False,5.0


- Podemos eliminar columnas directamente
- mejor no usar este y usar el drop siguiente

In [63]:
del df['nueva']
df

KeyError: 'nueva'

- O tilizando el método `drop` que sirve para eliminar filas o columnas

In [64]:
df.drop('pop', axis=1)
df

Unnamed: 0,city,pop,bolsa
1,Madrid,100.0,True
2,Barcelona,4.8,True
3,Bilbao,2.1,True
4,Valencia,1.8,True
5,Sevilla,2.0,False
6,Teruel,0.8,False
7,Soria,0.2,False


In [65]:
df_2 = df.drop('pop', axis=1)
df_2

Unnamed: 0,city,bolsa
1,Madrid,True
2,Barcelona,True
3,Bilbao,True
4,Valencia,True
5,Sevilla,False
6,Teruel,False
7,Soria,False


- Muchos de los métodos de pandas tienen un parámetro `inplace` que especifica si la operación debe hacerse inpalce o no.

In [66]:
df.drop(5, axis=0, inplace=True)
df

Unnamed: 0,city,pop,bolsa
1,Madrid,100.0,True
2,Barcelona,4.8,True
3,Bilbao,2.1,True
4,Valencia,1.8,True
6,Teruel,0.8,False
7,Soria,0.2,False


In [67]:
df.drop([1, 2, 7], axis=0, inplace=True)
df

Unnamed: 0,city,pop,bolsa
3,Bilbao,2.1,True
4,Valencia,1.8,True
6,Teruel,0.8,False


- Podemos recuperar los datos como un diccionario de Python

In [68]:
df.to_dict()

{'city': {3: 'Bilbao', 4: 'Valencia', 6: 'Teruel'},
 'pop': {3: 2.1, 4: 1.8, 6: 0.8},
 'bolsa': {3: True, 4: True, 6: False}}

In [69]:
df.T.to_dict()

{3: {'city': 'Bilbao', 'pop': 2.1, 'bolsa': True},
 4: {'city': 'Valencia', 'pop': 1.8, 'bolsa': True},
 6: {'city': 'Teruel', 'pop': 0.8, 'bolsa': False}}