# Pandas I

- Librería para el manejo de datos estructurados (dataframes)
- El nombre deriva de **panel data**.
- Desarrollada en 2008 por Wes McKinney como herramienta para el análisis cuantitativo de series temporales basadas en información financiera (cotizaciones).

In [2]:
import pandas as pd

- Las clases básicas de pandas son:
    - **Series** -> Información unidimensional
    - **Dataframes** -> Información tabular

## Series

Estructura de datos que contiene:
- Un numpy array de datos
- Un array de etiquetas (índice)

In [3]:
series = pd.Series([2, 3, 5, -8])
series

0    2
1    3
2    5
3   -8
dtype: int64

- El constructor de la clase (el método __init__ de la clase Series) puede recibir los siguientes parámetros (además de otros)
    - `data`: Datos a almacenar
    - `index`: Índice para los datos (opcional)
    - `dtype`: Tipo de dato para el array de numpy (opcional)
    - `name`: Nombre de la serie (opcional)

In [5]:
pd.Series([0, 1, 2], index = ['a', 'b', 'c'], dtype='object', name='mi_serie')

a    0
b    1
c    2
Name: mi_serie, dtype: object

- Podemos crear series a partir de un diccionario (muy útil)

In [9]:
dic = {key: value for key, value in zip(['a', 'b', 'c'],[0, 1, 2])}
dic

{'a': 0, 'b': 1, 'c': 2}

In [11]:
series = pd.Series(dic) #Esto se hace mucho
series

a    0
b    1
c    2
dtype: int64

In [8]:
dic2 = {'a': 0, 'b': 1, 'c': 2} #Otra forma, que a mi me gusta más
dic2

{'a': 0, 'b': 1, 'c': 2}

In [10]:
series2 = pd.Series(dic2)
series2

a    0
b    1
c    2
dtype: int64

- Disponemos de dos atributos para recuperar los datos y el índice de una serie de forma independiente

In [12]:
series.values #Solo funciona con series, no con dataframes

array([0, 1, 2])

In [13]:
type(series.values)

numpy.ndarray

In [14]:
series.index

Index(['a', 'b', 'c'], dtype='object')

In [15]:
type(series.index)

pandas.core.indexes.base.Index

In [None]:
from utils import midir
midir(series.index)

- Se pueden extraer los elementos de la serie utilizando el índice

In [17]:
series['b']

1

- Podemos modificar elementos puntuales de la serie

In [18]:
series['c'] = 1000
series

a       0
b       1
c    1000
dtype: int64

- No podemos modificar elementos puntuales del índice

In [19]:
series.index[0] = 'z'

TypeError: Index does not support mutable operations

- Pero si podemos sustituir el índice completo por otro

In [14]:
series.index = ['a_1', 'b_1', 'c_1']
series

a_1       0
b_1       1
c_1    1000
dtype: int64

- Mayormente el comportamiento en operaciones comunes es como el de un numpy array
- Sin embargo, el resultado de operaciones vectorizadas es una serie y no un numpy array.

In [20]:
series > 0

a    False
b     True
c     True
dtype: bool

In [21]:
type(series > 0)

pandas.core.series.Series

In [18]:
series * 2

a_1       0
b_1       2
c_1    2000
dtype: int64

- En general, debemos asegurarnos de cómo está implementada la operación

In [22]:
series

a       0
b       1
c    1000
dtype: int64

In [21]:
1 in series #Ojo, esto no busca en valores, busca en índice, por eso te dice False

False

In [23]:
'a_1' in series

False

In [24]:
1 in series.values #se hace así

True

- Podemos aplicar operaciones de numpy directamente sobre la serie

In [25]:
import numpy as np

In [26]:
series = pd.Series(np.random.rand(5))
series

0    0.812263
1    0.653075
2    0.790819
3    0.761977
4    0.365510
dtype: float64

In [27]:
np.exp(series)

0    2.184761
1    1.310140
2    1.579118
3    1.845137
4    1.971305
dtype: float64

- Podemos acceder a través de los métodos de la serie a varias funciones de agregación

In [27]:
series.mean()

0.6767287750962988

In [29]:
series.median()

0.6125535771899735

In [28]:
%%timeit
series.mean() #Este sabe que ya tiene que calcular una serie

27 µs ± 315 ns per loop (mean ± std. dev. of 7 runs, 10000 loops each)


In [29]:
%%timeit
np.mean(series)

32.6 µs ± 897 ns per loop (mean ± std. dev. of 7 runs, 10000 loops each)


In [30]:
%%timeit
np.mean(series.values) #Le indicas exactamente qué datos coger, que es un numpy, no una serie, esto es lo mejor

5.12 µs ± 98 ns per loop (mean ± std. dev. of 7 runs, 100000 loops each)


- Las estructuras de pandas están optimizadas, pero en general es mucho más rápido trabajar directamente con numpy arrays
- Si necesitamos velocidad, numpy es con diferencia la elección adecuada

- Existen muchísimos métodos y atributos asociados a las series
- Se van descubriendo a medida que los vamos necesitando

In [31]:
from utils import midir
midir(series)

['T',
 '_AXIS_ALIASES',
 '_AXIS_IALIASES',
 '_AXIS_LEN',
 '_AXIS_NAMES',
 '_AXIS_NUMBERS',
 '_AXIS_ORDERS',
 '_AXIS_REVERSED',
 '_HANDLED_TYPES',
 '_accessors',
 '_add_numeric_operations',
 '_add_series_only_operations',
 '_add_series_or_dataframe_operations',
 '_agg_by_level',
 '_agg_examples_doc',
 '_agg_see_also_doc',
 '_aggregate',
 '_aggregate_multiple_funcs',
 '_align_frame',
 '_align_series',
 '_binop',
 '_box_item_values',
 '_builtin_table',
 '_can_hold_na',
 '_check_inplace_setting',
 '_check_is_chained_assignment_possible',
 '_check_label_or_level_ambiguity',
 '_check_percentile',
 '_check_setitem_copy',
 '_clear_item_cache',
 '_clip_with_one_bound',
 '_clip_with_scalar',
 '_consolidate',
 '_consolidate_inplace',
 '_construct_axes_dict',
 '_construct_axes_dict_from',
 '_construct_axes_from_arguments',
 '_constructor',
 '_constructor_expanddim',
 '_constructor_sliced',
 '_convert',
 '_create_indexer',
 '_cython_table',
 '_data',
 '_deprecations',
 '_dir_additions',
 '_dir_dele

## Dataframes

- Estructura tabular
- Tiene un índice para las filas y otro para las columnas
- Cada columna puede contener un tipo de numpy diferente

- El constructor de la clase puede recibir los siguientes parámetros (además de otros)
    - `data`: Datos a almacenar
    - `index`: Índice para los datos (opcional)
    - `columns`: Etiquetas de las columnas del dataframe (opcional)
    - `dtype`: Tipo de dato para el array de numpy (opcional)

- La construcción del dataframe suele hacerse a partir de diccionarios (aunque hay otras formas)

In [11]:
import numpy as np
import pandas as pd
data = {'ciudad': ['Madrid', 'Barcelona', 'Bilbao', 'Valencia', 'Sevilla', 'Teruel', 'Soria'],
        'pop': [5.2, 4.8, 2.1, 1.8, 2, 0.8, 0.2],
        'bolsa': [True, True, True, True, False, False, False]}

In [12]:
df = pd.DataFrame(data, index = np.arange(1, 8))
df

Unnamed: 0,ciudad,pop,bolsa
1,Madrid,5.2,True
2,Barcelona,4.8,True
3,Bilbao,2.1,True
4,Valencia,1.8,True
5,Sevilla,2.0,False
6,Teruel,0.8,False
7,Soria,0.2,False


- Algunas funcionalidades básicas

In [13]:
df.head()

Unnamed: 0,ciudad,pop,bolsa
1,Madrid,5.2,True
2,Barcelona,4.8,True
3,Bilbao,2.1,True
4,Valencia,1.8,True
5,Sevilla,2.0,False


In [14]:
df.head(2)

Unnamed: 0,ciudad,pop,bolsa
1,Madrid,5.2,True
2,Barcelona,4.8,True


In [15]:
df.tail()

Unnamed: 0,ciudad,pop,bolsa
3,Bilbao,2.1,True
4,Valencia,1.8,True
5,Sevilla,2.0,False
6,Teruel,0.8,False
7,Soria,0.2,False


- Al igual que en las series, tenemos acceso al índice y en este caso también a las columnas

In [16]:
df.index

Int64Index([1, 2, 3, 4, 5, 6, 7], dtype='int64')

In [17]:
df.columns

Index(['ciudad', 'pop', 'bolsa'], dtype='object')

In [41]:
df.values

array([['Madrid', 5.2, True],
       ['Barcelona', 4.8, True],
       ['Bilbao', 2.1, True],
       ['Valencia', 1.8, True],
       ['Sevilla', 2.0, False],
       ['Teruel', 0.8, False],
       ['Soria', 0.2, False]], dtype=object)

- Podemos cambiar el nombre de las columnas (de forma completa) no individualmente

In [35]:
df.columns[0] = 'city'

TypeError: Index does not support mutable operations

In [36]:
df.columns = ['city', 'pop', 'bolsa']
df

Unnamed: 0,city,pop,bolsa
1,Madrid,5.2,True
2,Barcelona,4.8,True
3,Bilbao,2.1,True
4,Valencia,1.8,True
5,Sevilla,2.0,False
6,Teruel,0.8,False
7,Soria,0.2,False


In [60]:
col = [*df.columns]
col.remove('city') #Otra forma de renombrar columnas NO FUNCIONA, POR?
col.insert(0, 'Ciudad')

In [37]:
col.index('city')

NameError: name 'col' is not defined

- Podemos recuperar los elementos de las columnas de varias formas

In [38]:
df['city'] #Para pedir una columna al dataframe

1       Madrid
2    Barcelona
3       Bilbao
4     Valencia
5      Sevilla
6       Teruel
7        Soria
Name: city, dtype: object

In [44]:
df.city

1       Madrid
2    Barcelona
3       Bilbao
4     Valencia
5      Sevilla
6       Teruel
7        Soria
Name: city, dtype: object

In [62]:
type(df.city)

pandas.core.series.Series

- Existen dos métodos para acceder a los elementos del dataframe
    - `loc` -> Accedemos a través del valor de los índices
    - `iloc` -> Accedemos con las 'coordenadas' del elemento

In [45]:
df

Unnamed: 0,city,pop,bolsa
1,Madrid,5.2,True
2,Barcelona,4.8,True
3,Bilbao,2.1,True
4,Valencia,1.8,True
5,Sevilla,2.0,False
6,Teruel,0.8,False
7,Soria,0.2,False


In [46]:
df.loc[1, 'pop'] #Le paso el índice y la columna

5.2

In [47]:
df.iloc[0, 1] #Le paso la coordenada en posiciones, no se usa mucho.

5.2

In [48]:
df['pop'].loc[1] #De la columna pop, me devuelve un dato en dicho índice

5.2

In [50]:
df.loc[:, 'bolsa'] #Para pedir toda la columna

1     True
2     True
3     True
4     True
5    False
6    False
7    False
Name: bolsa, dtype: bool

- Podemos asignar valores a los elementos del dataframe o a las columnas enteras

In [72]:
df

Unnamed: 0,city,pop,bolsa
1,Madrid,5.2,True
2,Barcelona,4.8,True
3,Bilbao,2.1,True
4,Valencia,1.8,True
5,Sevilla,2.0,False
6,Teruel,0.8,False
7,Soria,0.2,False


In [73]:
df.loc[1, 'pop'] = 100
df

Unnamed: 0,city,pop,bolsa
1,Madrid,100.0,True
2,Barcelona,4.8,True
3,Bilbao,2.1,True
4,Valencia,1.8,True
5,Sevilla,2.0,False
6,Teruel,0.8,False
7,Soria,0.2,False


In [53]:
df['nueva'] = None #Mejor acceder a las columnas así
df

Unnamed: 0,city,pop,bolsa,nueva
1,Madrid,5.2,True,
2,Barcelona,4.8,True,
3,Bilbao,2.1,True,
4,Valencia,1.8,True,
5,Sevilla,2.0,False,
6,Teruel,0.8,False,
7,Soria,0.2,False,


In [54]:
df.nueva = 1
df

Unnamed: 0,city,pop,bolsa,nueva
1,Madrid,5.2,True,1
2,Barcelona,4.8,True,1
3,Bilbao,2.1,True,1
4,Valencia,1.8,True,1
5,Sevilla,2.0,False,1
6,Teruel,0.8,False,1
7,Soria,0.2,False,1


In [76]:
df.masnueva = 'Hola!' #No está la columna, pero sí se crea un atributo, no se puede definir así
df

Unnamed: 0,city,pop,bolsa,nueva
1,Madrid,100.0,True,1
2,Barcelona,4.8,True,1
3,Bilbao,2.1,True,1
4,Valencia,1.8,True,1
5,Sevilla,2.0,False,1
6,Teruel,0.8,False,1
7,Soria,0.2,False,1


In [77]:
df.masnueva #Se ha definido el atributo

'Hola!'

- Si asignamos a una columna una serie, la información se ajusta de forma que los índices coincidan

In [55]:
series = pd.Series([2, 3, 4, 100], index=[6, 2, 3, 10]) #Los indices y valores tienen que cuadrar en tamaño
                                                        # Si el índice no existe no hace nada con el dato
df['nueva'] = series
df

Unnamed: 0,city,pop,bolsa,nueva
1,Madrid,5.2,True,
2,Barcelona,4.8,True,3.0
3,Bilbao,2.1,True,4.0
4,Valencia,1.8,True,
5,Sevilla,2.0,False,
6,Teruel,0.8,False,2.0
7,Soria,0.2,False,


- Para los índices en los que no hay información, se completan con NaN

In [56]:
df.iloc[0, -1]

nan

In [57]:
type(_)

numpy.float64

- Podemos realizar asignaciones más complejas

In [83]:
df.loc[df.index>3] #Muestra los datos con un índice mayor que 3

Unnamed: 0,city,pop,bolsa,nueva
4,Valencia,1.8,True,
5,Sevilla,2.0,False,
6,Teruel,0.8,False,2.0
7,Soria,0.2,False,


In [84]:
df.loc[df.index>3, 'nueva'] = 5
df

Unnamed: 0,city,pop,bolsa,nueva
1,Madrid,100.0,True,
2,Barcelona,4.8,True,3.0
3,Bilbao,2.1,True,4.0
4,Valencia,1.8,True,5.0
5,Sevilla,2.0,False,5.0
6,Teruel,0.8,False,5.0
7,Soria,0.2,False,5.0


- Podemos eliminar columnas directamente

In [85]:
del df['nueva'] #No usar
df

Unnamed: 0,city,pop,bolsa
1,Madrid,100.0,True
2,Barcelona,4.8,True
3,Bilbao,2.1,True
4,Valencia,1.8,True
5,Sevilla,2.0,False
6,Teruel,0.8,False
7,Soria,0.2,False


- O utilizando el método `drop` que sirve para eliminar filas o columnas

In [19]:
df.drop('pop', axis=1) #Mejor usar este, pero ¿por qué no lo hace? Porque no es inplace
df

Unnamed: 0,ciudad,pop,bolsa
1,Madrid,5.2,True
2,Barcelona,4.8,True
3,Bilbao,2.1,True
4,Valencia,1.8,True
5,Sevilla,2.0,False
6,Teruel,0.8,False
7,Soria,0.2,False


In [21]:
df_2 = df.drop('pop', axis=1) #Y asignarlo a una variable
df_2

Unnamed: 0,ciudad,bolsa
1,Madrid,True
2,Barcelona,True
3,Bilbao,True
4,Valencia,True
5,Sevilla,False
6,Teruel,False
7,Soria,False


- Muchos de los métodos de pandas tienen un parámetro `inplace` que especifica si la operación debe hacerse inpalce o no.

In [22]:
df.drop(5, axis=0, inplace=True) #Esto hace lo anterior inplace, tira la fila 5, que eer Sevilla, de la columna 1
df

Unnamed: 0,ciudad,pop,bolsa
1,Madrid,5.2,True
2,Barcelona,4.8,True
3,Bilbao,2.1,True
4,Valencia,1.8,True
6,Teruel,0.8,False
7,Soria,0.2,False


In [91]:
df.drop([1, 2, 7], axis=0, inplace=True) #Por ejemplo investigamos que filas tienen muchos NaN,
                                        #y luego queremos eleiminar esas filas
df

Unnamed: 0,city,pop,bolsa
3,Bilbao,2.1,True
4,Valencia,1.8,True
6,Teruel,0.8,False


- Podemos recuperar los datos como un diccionario de Python

In [59]:
df.to_dict()

{'city': {1: 'Madrid',
  2: 'Barcelona',
  3: 'Bilbao',
  4: 'Valencia',
  5: 'Sevilla',
  6: 'Teruel',
  7: 'Soria'},
 'pop': {1: 5.2, 2: 4.8, 3: 2.1, 4: 1.8, 5: 2.0, 6: 0.8, 7: 0.2},
 'bolsa': {1: True, 2: True, 3: True, 4: True, 5: False, 6: False, 7: False},
 'nueva': {1: nan, 2: 3.0, 3: 4.0, 4: nan, 5: nan, 6: 2.0, 7: nan}}

In [60]:
df.T.to_dict()

{1: {'city': 'Madrid', 'pop': 5.2, 'bolsa': True, 'nueva': nan},
 2: {'city': 'Barcelona', 'pop': 4.8, 'bolsa': True, 'nueva': 3.0},
 3: {'city': 'Bilbao', 'pop': 2.1, 'bolsa': True, 'nueva': 4.0},
 4: {'city': 'Valencia', 'pop': 1.8, 'bolsa': True, 'nueva': nan},
 5: {'city': 'Sevilla', 'pop': 2.0, 'bolsa': False, 'nueva': nan},
 6: {'city': 'Teruel', 'pop': 0.8, 'bolsa': False, 'nueva': 2.0},
 7: {'city': 'Soria', 'pop': 0.2, 'bolsa': False, 'nueva': nan}}

In [61]:
df

Unnamed: 0,city,pop,bolsa,nueva
1,Madrid,5.2,True,
2,Barcelona,4.8,True,3.0
3,Bilbao,2.1,True,4.0
4,Valencia,1.8,True,
5,Sevilla,2.0,False,
6,Teruel,0.8,False,2.0
7,Soria,0.2,False,
