# Pandas III

In [1]:
import numpy as np
import pandas as pd

## Lectura de ficheros

- Existen multitud de funciones de alto nivel disponibles en la librería pandas para leer datos desde ficheros, web, bases de datos, ...
- Por ejemplo:
    - `read_csv()` -> Para leer archivos csv
    - `read_table()` -> Igual que el anterior pero usa `\t` como delimitador
    - `read_clipboard()` -> Igual que el anterior pero lee los datos desde el portapapeles
    - `read_excel()` -> Lee datos desde un excel
    - `read_html()` -> Lee todas las tablas disponibles en un documento HTML
    - `read_json()` -> Lee archivos tipo `.json`
    - `read_pickle()` -> Lee datos desde un pickle.
    - `read_sql()` -> Lee los resultdos de una query de SQL

- Probablemente la más utilizada es `read_csv`
- Los parámetros más comunes son
    - `path` : Ruta del fichero.
    - `sep` : Separador de campos en el fichero.
    - `header` : Índice de la fila que contiene los nombres de las columnas.
    - `index_col` : Nombre de la columna que se debe usar como índice de filas de los datos.
    - `names` : Secuencia que contiene los nombres de las columnas (usado junto con header=None).
    - `skiprows` : Número de filas que se deben ignorar en la carga.
    - `na_values` : Secuencia de valores que, de encontrarse en el fichero, deben ser tratados como NaN.
    - `dtype` : Diccionario en el que las claves serán nombres de columnas y los valores serán tipos de NumPy a los que se debe convertir su contenido.
    - `parse_dates` : Flag que indica si Python debe intentar parsear datos con formato semejante a las fechas como fechas. Puede contenter un listado de nombres de columnas que deberán unirse para el parseo como fecha.
    - `keep_date_col` : Si se unen columnas para parsear como fecha, indica si se deben eliminar del DataFrame resultante las columnas originales.
    - `converters` : Diccionario en el que las claves serán nombres de columnas y los valores funciones que se deberán aplicar al contenido de dichas columnas durante la carga.
    - `dayfirst` : Indica si al parsear fechas se debe esperar el día primero o el mes.
    - `date_parser` : Función a utilizar para tratar de parsear fechas.
    - `nrows` : Número de filas a leer desde el principio del fichero.
    - `chunksize` : Tamaño a utilizar para la lectura incremental del fichero.
    - `skip_footer` : Número de filas a ignorar del final del fichero.
    - `enconding` : Codificación a esperar del fichero leído.
    - `squeeze` : Flag que indica que si los datos leídos sólo contienen una columna el resultado sea una Serie en lugar de un DataFrame.
    - `thousands` : Carácter a utilizar para detectar el separador de miles.
    - `decimal` : Carácter a utilizar para detectar el separador de decimales.
    - `skip_blank_lines` : Flag que indica si se deben ignorar las líneas en blanco.

In [2]:
df = pd.read_csv('data/googl.us.csv')
df.head()

Unnamed: 0,Date,Open,High,Low,Close,Volume,OpenInt
0,2004-08-19,50.0,52.03,47.98,50.17,44703800,0
1,2004-08-20,50.505,54.54,50.25,54.155,22857200,0
2,2004-08-23,55.375,56.74,54.525,54.7,18274400,0
3,2004-08-24,55.62,55.8,51.785,52.435,15262600,0
4,2004-08-25,52.48,54.0,51.94,53.0,9197800,0


In [3]:
df = pd.read_csv('data/googl.us.csv', header=None)
df.head()

Unnamed: 0,0,1,2,3,4,5,6
0,Date,Open,High,Low,Close,Volume,OpenInt
1,2004-08-19,50,52.03,47.98,50.17,44703800,0
2,2004-08-20,50.505,54.54,50.25,54.155,22857200,0
3,2004-08-23,55.375,56.74,54.525,54.7,18274400,0
4,2004-08-24,55.62,55.8,51.785,52.435,15262600,0


In [4]:
df = pd.read_csv('data/googl.us.csv', header=None, names=['date', 'open', 'high', 'low', 'close', 'volume', 'open_int'])
df.head()

Unnamed: 0,date,open,high,low,close,volume,open_int
0,Date,Open,High,Low,Close,Volume,OpenInt
1,2004-08-19,50,52.03,47.98,50.17,44703800,0
2,2004-08-20,50.505,54.54,50.25,54.155,22857200,0
3,2004-08-23,55.375,56.74,54.525,54.7,18274400,0
4,2004-08-24,55.62,55.8,51.785,52.435,15262600,0


In [5]:
df = pd.read_csv('data/googl.us.csv', skiprows=1, header=None, names=['date', 'open', 'high', 'low', 'close', 'volume', 'open_int'], nrows=100)
df.head()

Unnamed: 0,date,open,high,low,close,volume,open_int
0,2004-08-19,50.0,52.03,47.98,50.17,44703800,0
1,2004-08-20,50.505,54.54,50.25,54.155,22857200,0
2,2004-08-23,55.375,56.74,54.525,54.7,18274400,0
3,2004-08-24,55.62,55.8,51.785,52.435,15262600,0
4,2004-08-25,52.48,54.0,51.94,53.0,9197800,0


In [6]:
df = pd.read_csv('data/googl.us.csv', index_col='Date', parse_dates=['Date'])
df.drop('OpenInt', axis=1, inplace=True)
df.columns = [string.lower() for string in list(df.columns)]
df

Unnamed: 0_level_0,open,high,low,close,volume
Date,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
2004-08-19,50.000,52.03,47.980,50.170,44703800
2004-08-20,50.505,54.54,50.250,54.155,22857200
2004-08-23,55.375,56.74,54.525,54.700,18274400
2004-08-24,55.620,55.80,51.785,52.435,15262600
2004-08-25,52.480,54.00,51.940,53.000,9197800
...,...,...,...,...,...
2017-11-06,1049.100,1052.59,1042.000,1042.680,913954
2017-11-07,1049.650,1053.41,1043.000,1052.390,1303832
2017-11-08,1050.050,1062.69,1047.050,1058.290,1214469
2017-11-09,1048.000,1050.88,1035.850,1047.720,1793994


In [7]:
df.index.name = None
df

Unnamed: 0,open,high,low,close,volume
2004-08-19,50.000,52.03,47.980,50.170,44703800
2004-08-20,50.505,54.54,50.250,54.155,22857200
2004-08-23,55.375,56.74,54.525,54.700,18274400
2004-08-24,55.620,55.80,51.785,52.435,15262600
2004-08-25,52.480,54.00,51.940,53.000,9197800
...,...,...,...,...,...
2017-11-06,1049.100,1052.59,1042.000,1042.680,913954
2017-11-07,1049.650,1053.41,1043.000,1052.390,1303832
2017-11-08,1050.050,1062.69,1047.050,1058.290,1214469
2017-11-09,1048.000,1050.88,1035.850,1047.720,1793994


### Carga de ficheros en formato no estándar

In [5]:
%%file data/test.csv
2,5;5,7;7,8;'NULL'
"--";8,1;7,8;9,7
9,1;'NULL';7,6;1,3
0,56;NULL;7,4;0,9
8,21;5,46;3,56;1

Writing data/test.csv


In [11]:
pd.read_csv('data/test.csv')

Unnamed: 0,2,5;5,7;7,8;'NULL'
0,--;8,1;7,8;9,7
1,9,1;'NULL';7,6;1,3
2,0,56;NULL;7,4;0,9
3,8,21;5,46;3,56;1


In [7]:
pd.read_csv('data/test.csv', sep=';')

Unnamed: 0,"2,5","5,7","7,8",'NULL'
0,--,81,78,97
1,91,'NULL',76,13
2,056,,74,9
3,821,546,356,1


In [9]:
pd.read_csv('data/test.csv', sep=';', header=None, na_values='--')

Unnamed: 0,0,1,2,3
0,25.0,57,78,'NULL'
1,,81,78,97
2,91.0,'NULL',76,13
3,56.0,,74,09
4,821.0,546,356,1


In [14]:
pd.read_csv('tmp/test.csv', sep=';', decimal=',', header=None, na_values=['--', 'NULL'])

Unnamed: 0,0,1,2,3
0,2.5,57,7.8,'NULL'
1,,81,7.8,97
2,9.1,'NULL',7.6,13
3,0.56,,7.4,09
4,8.21,546,3.56,1


In [11]:
pd.read_csv('data/test.csv', sep=';', header=None, na_values=['--', "'NULL'"])

Unnamed: 0,0,1,2,3
0,25.0,57.0,78,
1,,81.0,78,97.0
2,91.0,,76,13.0
3,56.0,,74,9.0
4,821.0,546.0,356,1.0


In [12]:
_[0]

0     2,5
1     NaN
2     9,1
3    0,56
4    8,21
Name: 0, dtype: object

In [13]:
_[0]

'2,5'

In [14]:
pd.read_csv('data/test.csv', sep=';', decimal=',', header=None, na_values=['--', "'NULL'"])

Unnamed: 0,0,1,2,3
0,2.5,5.7,7.8,
1,,8.1,7.8,9.7
2,9.1,,7.6,1.3
3,0.56,,7.4,0.9
4,8.21,5.46,3.56,1.0


In [15]:
_[0]

0    2.50
1     NaN
2    9.10
3    0.56
4    8.21
Name: 0, dtype: float64

## Escritura de ficheros

- Para guardar dataframes a ficheros podemos usar diversas funciones
    - `to_csv()`
    - `to_json()`
    - `to_html()`
    - `to_pickle()`
    - `to_sql()`    

- Nuevamente, la más usada es `to_csv()`
    - `path` : Ruta del fichero que se utilizará para la escritura.
    - `sep` : Separador de campos.
    - `na_rep` : Cadena que se deberá utilizar para darle representación a los valores NaN.
    - `float_format` : Indicador de formato para los números en coma flotante.
    - `columns` : Secuencia de selección del conjunto de columnas que se desea volcar al fichero.
    - `header` : Flag o secuencia de cadenas que indica si se debe volcar la cabecera al fichero.
    - `index` : Flag que indica si el índice debe ser incluido o no como una columna más en el fichero.
    - `index_label` : Nombre que se le debe dar a la columna de índice en el fichero.
    - `mode` : Modo de apertura del fichero. Por defecto, "w".
    - `encoding` : Codificación a utilizar en la escritura del fichero.
    - `line_terminator` : Carácter(es) a utilizar para indicar una final de registro.
    - `date_format` : Indicador de formato a utilizar para escribir fechas.
    - `decimal` : Carácter a utilizar como separador de decimales

In [17]:
df = pd.read_csv('data/test.csv', sep=';', decimal=',', header=None, na_values=['--', "'NULL'"])
df.to_csv('data/test_w.csv')

In [18]:
import sys

In [23]:
df.to_csv(sys.stdout, sep='\t')

	0	1	2	3
0	2.5	5.7	7.8	
1		8.1	7.8	9.7
2	9.1		7.6	1.3
3	0.56		7.4	0.9
4	8.21	5.46	3.56	1.0


In [25]:
df.to_json('tmp/test.json')
df.to_json(sys.stdout)

{"0":{"0":2.5,"1":null,"2":9.1,"3":0.56,"4":8.21},"1":{"0":5.7,"1":8.1,"2":null,"3":null,"4":5.46},"2":{"0":7.8,"1":7.8,"2":7.6,"3":7.4,"4":3.56},"3":{"0":null,"1":9.7,"2":1.3,"3":0.9,"4":1.0}}

In [26]:
pd.read_json('tmp/test.json')

Unnamed: 0,0,1,2,3
0,2.5,5.7,7.8,
1,,8.1,7.8,9.7
2,9.1,,7.6,1.3
3,0.56,,7.4,0.9
4,8.21,5.46,3.56,1.0


In [28]:
df.to_pickle('tmp/test.pkl')

In [29]:
pd.read_pickle('tmp/test.pkl')

Unnamed: 0,0,1,2,3
0,2.5,5.7,7.8,
1,,8.1,7.8,9.7
2,9.1,,7.6,1.3
3,0.56,,7.4,0.9
4,8.21,5.46,3.56,1.0


In [30]:
df.to_excel('tmp/test.xls')

In [31]:
pd.read_excel('tmp/test.xls')

Unnamed: 0.1,Unnamed: 0,0,1,2,3
0,0,2.5,5.7,7.8,
1,1,,8.1,7.8,9.7
2,2,9.1,,7.6,1.3
3,3,0.56,,7.4,0.9
4,4,8.21,5.46,3.56,1.0


## Limpieza de datos

- Pandas posee muchas herramientas para hacer la limpieza de los datos más sencilla

### Missing values

- Una de las labores más importantes es el tratamiento de los valores faltantes

#### Detección

- Pandas nos ofrece dos funciones para detectar valores nulos
    - `isnull()` -> Devuelve una Serie o un Dataframe con valores booleanos
    - `notnull()` -> Devuelve el inverso del anterior

In [19]:
df = pd.read_csv('data/test.csv', sep=';', decimal=',', header=None, na_values=['--', "'NULL'"])
df

Unnamed: 0,0,1,2,3
0,2.5,5.7,7.8,
1,,8.1,7.8,9.7
2,9.1,,7.6,1.3
3,0.56,,7.4,0.9
4,8.21,5.46,3.56,1.0


In [20]:
df.isnull()

Unnamed: 0,0,1,2,3
0,False,False,False,True
1,True,False,False,False
2,False,True,False,False
3,False,True,False,False
4,False,False,False,False


In [21]:
df.notnull()

Unnamed: 0,0,1,2,3
0,True,True,True,False
1,False,True,True,True
2,True,False,True,True
3,True,False,True,True
4,True,True,True,True


#### Eliminación

- Podemos utilizar la función `dropna()` para eliminar valores nulos
- Admite los siguientes parámetros
    - `axis`: Selecciona el eje sobre el cual realizar la eliminación
    - `how`: Eliminamos si hay uno o más (`any`) o si todos son na (`all`)
    - `thresh`: Número de valores que no son na requerido para no eliminar la fila o columna
    - `inplace`: Realiza la modificación inplace

In [22]:
df.dropna()

Unnamed: 0,0,1,2,3
4,8.21,5.46,3.56,1.0


In [23]:
df.dropna(axis=1)

Unnamed: 0,2
0,7.8
1,7.8
2,7.6
3,7.4
4,3.56


In [24]:
df.dropna(how='all')

Unnamed: 0,0,1,2,3
0,2.5,5.7,7.8,
1,,8.1,7.8,9.7
2,9.1,,7.6,1.3
3,0.56,,7.4,0.9
4,8.21,5.46,3.56,1.0


In [25]:
df.dropna(axis=1, thresh=4)

Unnamed: 0,0,2,3
0,2.5,7.8,
1,,7.8,9.7
2,9.1,7.6,1.3
3,0.56,7.4,0.9
4,8.21,3.56,1.0


#### Relleno

- Otra posibilidad es rellenar estos valores con la función `fillna()`
    - `axis`: Relleno por filas o columnas
    - `value`: Valor a usar para rellenar los na's
    - `method`: Método para rellenar los na's
        - `ffill`: Relleno en base a los últimos elementos
        - `bdill`: Relleno en base a los siguientes elementos
    - `limit`: Límite de elementos a rellenar
    - `inplace`: Realiza la modificación inplace

In [26]:
df

Unnamed: 0,0,1,2,3
0,2.5,5.7,7.8,
1,,8.1,7.8,9.7
2,9.1,,7.6,1.3
3,0.56,,7.4,0.9
4,8.21,5.46,3.56,1.0


In [27]:
df.fillna(value=0)

Unnamed: 0,0,1,2,3
0,2.5,5.7,7.8,0.0
1,0.0,8.1,7.8,9.7
2,9.1,0.0,7.6,1.3
3,0.56,0.0,7.4,0.9
4,8.21,5.46,3.56,1.0


In [28]:
df.fillna(method='ffill')

Unnamed: 0,0,1,2,3
0,2.5,5.7,7.8,
1,2.5,8.1,7.8,9.7
2,9.1,8.1,7.6,1.3
3,0.56,8.1,7.4,0.9
4,8.21,5.46,3.56,1.0


In [29]:
df.fillna(method='bfill')

Unnamed: 0,0,1,2,3
0,2.5,5.7,7.8,9.7
1,9.1,8.1,7.8,9.7
2,9.1,5.46,7.6,1.3
3,0.56,5.46,7.4,0.9
4,8.21,5.46,3.56,1.0


In [30]:
df.iloc[1:,1] = np.nan
df

Unnamed: 0,0,1,2,3
0,2.5,5.7,7.8,
1,,,7.8,9.7
2,9.1,,7.6,1.3
3,0.56,,7.4,0.9
4,8.21,,3.56,1.0


In [31]:
df.fillna(method='ffill', limit=2)

Unnamed: 0,0,1,2,3
0,2.5,5.7,7.8,
1,2.5,5.7,7.8,9.7
2,9.1,5.7,7.6,1.3
3,0.56,,7.4,0.9
4,8.21,,3.56,1.0


In [32]:
df.fillna({0: 10, 1: 1000})

Unnamed: 0,0,1,2,3
0,2.5,5.7,7.8,
1,10.0,1000.0,7.8,9.7
2,9.1,1000.0,7.6,1.3
3,0.56,1000.0,7.4,0.9
4,8.21,1000.0,3.56,1.0


In [33]:
dic = {key: df[key].mean() for key in df.columns}
print(dic)
df.fillna(dic)

{0: 5.0925, 1: 5.7, 2: 6.832000000000001, 3: 3.225}


Unnamed: 0,0,1,2,3
0,2.5,5.7,7.8,3.225
1,5.0925,5.7,7.8,9.7
2,9.1,5.7,7.6,1.3
3,0.56,5.7,7.4,0.9
4,8.21,5.7,3.56,1.0


### Eliminación de duplicados

- Funciones:
    - `duplicated()`: Comprueba si la fila está duplicada
    - `drop_duplicated()`: Elimina las filas duplicadas

In [51]:
df = pd.DataFrame({'col_1': ['uno', 'dos']*3 + ['dos'],
                   'col_2': [1, 1, 2, 3, 3, 4, 4]})
df

Unnamed: 0,col_1,col_2
0,uno,1
1,dos,1
2,uno,2
3,dos,3
4,uno,3
5,dos,4
6,dos,4


In [52]:
df.duplicated()

0    False
1    False
2    False
3    False
4    False
5    False
6     True
dtype: bool

In [53]:
df.drop_duplicates()

Unnamed: 0,col_1,col_2
0,uno,1
1,dos,1
2,uno,2
3,dos,3
4,uno,3
5,dos,4


In [54]:
df.drop_duplicates(['col_1'])

Unnamed: 0,col_1,col_2
0,uno,1
1,dos,1


In [55]:
df.drop_duplicates(['col_1'], keep='last')

Unnamed: 0,col_1,col_2
4,uno,3
6,dos,4


In [56]:
df.drop_duplicates(['col_1'], keep=False)

Unnamed: 0,col_1,col_2


### Reemplazamiento de valores

- `replace()`: Reemplaza un valor por otro

In [57]:
df

Unnamed: 0,col_1,col_2
0,uno,1
1,dos,1
2,uno,2
3,dos,3
4,uno,3
5,dos,4
6,dos,4


In [58]:
df.replace('uno', 'cero')

Unnamed: 0,col_1,col_2
0,cero,1
1,dos,1
2,cero,2
3,dos,3
4,cero,3
5,dos,4
6,dos,4


In [59]:
df.replace(['uno', 'dos'], 'cero')

Unnamed: 0,col_1,col_2
0,cero,1
1,cero,1
2,cero,2
3,cero,3
4,cero,3
5,cero,4
6,cero,4


### Renombrado de índice y columnas

- `rename()`

In [60]:
df

Unnamed: 0,col_1,col_2
0,uno,1
1,dos,1
2,uno,2
3,dos,3
4,uno,3
5,dos,4
6,dos,4


In [61]:
df.rename(index=lambda x: '01223456'[x])

Unnamed: 0,col_1,col_2
0,uno,1
1,dos,1
2,uno,2
2,dos,3
3,uno,3
4,dos,4
5,dos,4


In [62]:
_.index

Index(['0', '1', '2', '2', '3', '4', '5'], dtype='object')

In [63]:
df.index

RangeIndex(start=0, stop=7, step=1)

In [64]:
df.rename(index=lambda x: '01223456'[x], columns=lambda x: x[-2:])

Unnamed: 0,_1,_2
0,uno,1
1,dos,1
2,uno,2
2,dos,3
3,uno,3
4,dos,4
5,dos,4


### Outliers

In [34]:
data = pd.DataFrame(np.random.randn(1000, 4))
data.describe()

Unnamed: 0,0,1,2,3
count,1000.0,1000.0,1000.0,1000.0
mean,-0.017651,0.0263,0.034809,0.046311
std,1.030836,0.995938,0.949726,0.997347
min,-3.34015,-3.164523,-2.815268,-3.342588
25%,-0.718644,-0.623485,-0.630777,-0.616901
50%,-0.022708,0.008976,0.039959,0.071361
75%,0.681577,0.68638,0.685114,0.72253
max,3.327515,3.370814,3.082709,3.383906


In [35]:
quant = data.apply(lambda x: (x.quantile(0.25), x.quantile(0.75), x.quantile(0.75) - x.quantile(0.25)))

In [36]:
quant

0    (-0.7186438877834, 0.6815770704391989, 1.40022...
1    (-0.6234849435776393, 0.6863798221363305, 1.30...
2    (-0.6307771499162573, 0.6851137430386142, 1.31...
3    (-0.616900538731268, 0.7225296592311035, 1.339...
dtype: object

In [37]:
pd.DataFrame(quant.values.tolist())

Unnamed: 0,0,1,2
0,-0.718644,0.681577,1.400221
1,-0.623485,0.68638,1.309865
2,-0.630777,0.685114,1.315891
3,-0.616901,0.72253,1.33943


In [38]:
def out_det(x):
    return (x < quant[x.name][0] - quant[x.name][2]) \
            | (x > quant[x.name][1] + quant[x.name][2])

In [39]:
idx = data.apply(out_det)
idx

Unnamed: 0,0,1,2,3
0,False,False,False,False
1,False,False,False,False
2,False,True,False,False
3,False,False,False,False
4,False,False,False,False
5,False,False,False,False
6,False,False,False,False
7,False,False,False,False
8,False,False,False,False
9,True,False,False,False


In [40]:
data[idx]

Unnamed: 0,0,1,2,3
0,,,,
1,,,,
2,,-2.258939,,
3,,,,
4,,,,
5,,,,
6,,,,
7,,,,
8,,,,
9,-2.289849,,,


In [41]:
data[idx].dropna(how='all')

Unnamed: 0,0,1,2,3
2,,-2.258939,,
9,-2.289849,,,
16,,,,-3.142229
22,-2.143960,,,
26,,,,2.201302
31,,,2.109586,
34,,,,-2.107861
42,-2.243576,,,
47,,,,3.383906
53,,,,2.104100
