# Trabajar con librería Pandas
- Validar datos (nulos, duplicados)
- Unir dataframes

In [246]:
import pandas as pd
import numpy as np

Ejemplos de modificación de estructura

In [247]:
df_ventas_prod = pd.read_csv("ficheros\\ventas_producto.csv",
                 sep=';', header='infer')
df_ventas_prod.head(10)

Unnamed: 0,producto,mes,ventas
0,P1,1ENE,10
1,P1,2FEB,12
2,P1,3MAR,11
3,P1,4ARB,14
4,P1,5MAY,17
5,P1,6JUN,20
6,P3,1ENE,30
7,P3,2FEB,22
8,P3,3MAR,11
9,P3,4ARB,18


In [248]:
#pivotar
df_ventas_prod2 = df_ventas_prod.pivot_table(values='ventas', index='producto', columns='mes')
df_ventas_prod2

mes,1ENE,2FEB,3MAR,4ARB,5MAY,6JUN
producto,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
P1,10.0,12.0,11.0,14.0,17.0,20.0
P3,30.0,22.0,11.0,18.0,27.0,21.0
P4,16.0,21.0,15.0,14.0,22.0,


In [249]:
df_ventas_prod3 = df_ventas_prod.T
df_ventas_prod3

Unnamed: 0,0,1,2,3,4,5,6,7,8,9,10,11,12,13,14,15,16
producto,P1,P1,P1,P1,P1,P1,P3,P3,P3,P3,P3,P3,P4,P4,P4,P4,P4
mes,1ENE,2FEB,3MAR,4ARB,5MAY,6JUN,1ENE,2FEB,3MAR,4ARB,5MAY,6JUN,1ENE,2FEB,3MAR,4ARB,5MAY
ventas,10,12,11,14,17,20,30,22,11,18,27,21,16,21,15,14,22


In [250]:
l_clientes = [['Jorge', 33, 'Valladolid'],
              ['Luis', 25, 'Madrid'],
              ['Pilar', 44, 'Zaragoza'],
              ['Ana', 37, 'Cuenca']] 
df_clientes = pd.DataFrame(l_clientes, 
    columns=['nombre', 'edad', 'ciudad']) 
#pivotar
df_clientes2 = df_clientes.pivot_table(values='edad',  
                          index='nombre', 
                          columns='ciudad') 
df_clientes2

ciudad,Cuenca,Madrid,Valladolid,Zaragoza
nombre,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
Ana,37.0,,,
Jorge,,,33.0,
Luis,,25.0,,
Pilar,,,,44.0


Al pivotar aparecen muchos __nulos__

In [251]:
# detectar nulos
df_clientes2['Madrid'].isnull()

nombre
Ana       True
Jorge     True
Luis     False
Pilar     True
Name: Madrid, dtype: bool

In [252]:
# detectar nulos
df_clientes2['Madrid'].notnull()

nombre
Ana      False
Jorge    False
Luis      True
Pilar    False
Name: Madrid, dtype: bool

In [253]:
# detectar nulos
df_clientes2['Madrid'].isna()

nombre
Ana       True
Jorge     True
Luis     False
Pilar     True
Name: Madrid, dtype: bool

In [254]:
df_clientes2['Madrid'].isnull().sum() #contar nulos

3

In [255]:
df_clientes2['Madrid'].isnull().mean()     #porcentaje de nulos

0.75

In [256]:
df_clientes2[df_clientes2['Madrid'].isnull()] #filas con nulos 

ciudad,Cuenca,Madrid,Valladolid,Zaragoza
nombre,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
Ana,37.0,,,
Jorge,,,33.0,
Pilar,,,,44.0


In [257]:
df_clientes2[df_clientes2['Madrid'].notnull()] #filas sin nulos 

ciudad,Cuenca,Madrid,Valladolid,Zaragoza
nombre,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
Luis,,25.0,,


__Metodos__ para eliminar filas o columnas con nulos

In [258]:
# elimina columnas en las que todos los valores son nulos
df_clientes3 = df_clientes2.dropna(axis=1, how='all') 
# elimina columnas en las que agún valor es nulo
df_clientes3 = df_clientes2.dropna(axis=1, how='any') 
# elimina filas en las que todos los valores son nulos
df_clientes3 = df_clientes2.dropna(axis=0, how='all') 
# elimina filas en las que agún valor es nulo
df_clientes3 = df_clientes2.dropna(axis=0, how='any') 

__Sustituir__ nulos

In [259]:
# sustituir por un valor determinado
#df_clientes3 = df_clientes2.fillna(0) 
df_clientes2['Madrid'] = df_clientes2['Madrid'].fillna(0) 
df_clientes2

ciudad,Cuenca,Madrid,Valladolid,Zaragoza
nombre,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
Ana,37.0,0.0,,
Jorge,,0.0,33.0,
Luis,,25.0,,
Pilar,,0.0,,44.0


In [260]:
# reemplazar por el valor anterior(backfill) op por el siguiente (ffill)
df_clientes3 = df_clientes2.fillna(method='backfill') 

In [261]:
df_clientes3 = df_clientes2.fillna(method='ffill') 

In [262]:
# reemplazar por el valor medio de la columna
df_clientes3 = df_clientes2.fillna(df_clientes2.mean()) 
df_clientes2['Madrid'] = df_clientes2['Madrid'].fillna(df_clientes2['Madrid'].mean()) 

Detectar y eliminar __duplicados__

In [263]:
# Eliminar duplicados
# La siguiente tabla tiene duplicados
l_clientes = [[1,'Jorge', 33, 'Valladolid'],
              [2,'Luis', 25, 'Madrid'],
              [3,'Pilar', 44, 'Zaragoza'],
              [4,'Ana', 37, 'Cuenca'],
              [2,'Luis', 25, 'Madrid'],
              [2,'Ramón', 29, 'Lugo']
              ] 

df_clientes = pd.DataFrame(l_clientes, 
    columns=['id','nombre', 'edad', 'ciudad']) 
df_clientes

Unnamed: 0,id,nombre,edad,ciudad
0,1,Jorge,33,Valladolid
1,2,Luis,25,Madrid
2,3,Pilar,44,Zaragoza
3,4,Ana,37,Cuenca
4,2,Luis,25,Madrid
5,2,Ramón,29,Lugo


__Buscar duplicados__ por todos los campos

In [264]:
df_clientes.duplicated()  #busca duplicados por todos los campos

0    False
1    False
2    False
3    False
4     True
5    False
dtype: bool

In [265]:
df_clientes[df_clientes.duplicated()]

Unnamed: 0,id,nombre,edad,ciudad
4,2,Luis,25,Madrid


__Buscar duplicados__ por un campo concreto

In [266]:
df_clientes.duplicated(subset='id')  #busca duplicados por un campo determinado

0    False
1    False
2    False
3    False
4     True
5     True
dtype: bool

In [267]:
df_clientes[df_clientes.duplicated(subset='id')]

Unnamed: 0,id,nombre,edad,ciudad
4,2,Luis,25,Madrid
5,2,Ramón,29,Lugo


__Eliminar duplicados__

In [268]:
#eliminar duplicados por todas las columnas
df_clientes2 = df_clientes.drop_duplicates()
df_clientes2

Unnamed: 0,id,nombre,edad,ciudad
0,1,Jorge,33,Valladolid
1,2,Luis,25,Madrid
2,3,Pilar,44,Zaragoza
3,4,Ana,37,Cuenca
5,2,Ramón,29,Lugo


In [269]:
df_clientes2._is_copy # indica el DF original

<weakref at 0x000001F53365AE00; to 'DataFrame' at 0x000001F532DB1400>

In [270]:
#eliminar duplicados por un campo determinado
df_clientes2 = df_clientes.drop_duplicates(subset='id', keep='first').copy()
df_clientes2

Unnamed: 0,id,nombre,edad,ciudad
0,1,Jorge,33,Valladolid
1,2,Luis,25,Madrid
2,3,Pilar,44,Zaragoza
3,4,Ana,37,Cuenca


In [271]:
df_clientes2._is_copy # indica el DF original

Crear campos calculados con assign

In [272]:
df_clientes3 = df_clientes2.assign(meses=df_clientes2['edad'] * 12).copy()

In [273]:
df_clientes3

Unnamed: 0,id,nombre,edad,ciudad,meses
0,1,Jorge,33,Valladolid,396
1,2,Luis,25,Madrid,300
2,3,Pilar,44,Zaragoza,528
3,4,Ana,37,Cuenca,444


Concatenar métodos

In [274]:
(
    df_clientes2
    .assign(meses=df_clientes2['edad'] * 12)
    .drop(columns='edad')
    .to_csv("ficheros\\clientes.csv")
)

In [275]:
df_clientes2 \
    .assign(meses=df_clientes2['edad'] * 12) \
    .drop(columns='edad') \
    .to_csv("ficheros\\clientes2.csv") 

In [276]:
df_res = (
    df_clientes2
    .assign(meses=df_clientes2['edad'] * 12)
    .drop(columns='edad')
)
df_res

Unnamed: 0,id,nombre,ciudad,meses
0,1,Jorge,Valladolid,396
1,2,Luis,Madrid,300
2,3,Pilar,Zaragoza,528
3,4,Ana,Cuenca,444


Crear un campo categoría

In [277]:
df_clientes2.dtypes

id         int64
nombre    object
edad       int64
ciudad    object
dtype: object

In [278]:
df_clientes2['ciudad'] = df_clientes2['ciudad'].astype("category")

In [279]:
df_clientes2.dtypes

id           int64
nombre      object
edad         int64
ciudad    category
dtype: object

Trabajar con categorías puede tener beneficios en operaciones de agrupación y para hacer ordenaciones a medida

In [280]:
df_clientes2.sort_values(by = 'ciudad')

Unnamed: 0,id,nombre,edad,ciudad
3,4,Ana,37,Cuenca
1,2,Luis,25,Madrid
0,1,Jorge,33,Valladolid
2,3,Pilar,44,Zaragoza


In [281]:
my_order=["Madrid", "Valladolid", "Zaragoza", "Cuenca", "Lugo"]
df_clientes2['ciudad'].cat.reorder_categories(my_order, inplace= True)
df_clientes2.sort_values(by = 'ciudad')

  df_clientes2['ciudad'].cat.reorder_categories(my_order, inplace= True)


ValueError: items in new_categories are not the same as in old categories

__Operaciones de filtrado y asignación__. La siguiente operación no funciona bien da un warning y lo podemos ver en los resultados

In [None]:
df_clientes2[df_clientes2['edad'] > 30]['ciudad'] = "Madrid"

In [None]:
df_clientes4 = df_clientes2.loc[df_clientes2['edad'] > 30,'ciudad']
df_clientes4

In [None]:
df

In [None]:
df_clientes2

Es necesario hacerlo con un método .loc

In [None]:
df_clientes2.loc[df_clientes2['edad'] > 30, 'ciudad'] = "Madrid"

In [None]:
df_clientes2

In [None]:
df_clientes3 = df_clientes2[df_clientes2['edad'] > 30]['ciudad']
df_clientes4 = df_clientes2[df_clientes2['edad'] > 30]['ciudad'].copy()

Copies vs views: a view is a subset of the original DataFrame linked to the original source, while a copy is an entirely new object. A consequence of the distinction is that when we modify the view, we modify the original object as well. That does not happen with copies, as they are not connected to the original objects.    
To understand whether a frame is a view of a copy, you can use the internal _is_view and _is_copy methods of a pandas.DataFrame. The first one returns a boolean, while the second either a weakref to the original DataFrame, or None

In [None]:
df_clientes3._is_view, df_clientes3._is_copy, df_clientes4._is_view, df_clientes4._is_copy

__Unir__ dataframes

Leemos varios ficheros para realizar operaciones de unión: los ficheros f_ventas_A, f_ventas_B y f_ventas_C son exceles con una estructura de campos similar. El fichero precios tiene columnas complementarias

In [None]:
#ruta="C:\\trabajo\\cursos estandar\\Phyton\\ficheros\\"
ruta="ficheros\\"
fichA = "f_ventas_A.xlsx"
fichB= "f_ventas_B.xlsx"
fichC= "f_ventas_C.xlsx"
fichP = "precios.xlsx"

df_ventasA = pd.read_excel(ruta+fichA)

df_ventasB = pd.read_excel(ruta+fichB)

df_ventasC = pd.read_excel(ruta+fichC)

df_precios = pd.read_excel(ruta+fichP)

In [None]:
df_ventasA, df_ventasB, df_ventasC, df_precios

__Unir por filas__ 2 dataframes (operación concatenar)

In [None]:
%%time
# unir 2 dataframes
df_ventas_t = pd.concat([df_ventasA, df_ventasB])
df_ventas_t

In [None]:
%%time
#del df_ventas_t # borrado df
df_ventas_t = df_ventasA.append(df_ventasB)
df_ventas_t

In [None]:
df_ventas_t = df_ventas_t.reset_index() #rehacemos el índice

In [None]:
df_ventas_t

__Unir por columnas__ (operación join)

In [None]:
# Union tipo left join, el campo indicator me indica los comunes, no comunes...
df_ventas_l = pd.merge(left=df_ventas_t, right=df_precios,
                      how='left', left_on='producto', right_on='producto', indicator=True)

In [None]:
df_ventas_l

In [None]:
df_ventas_l._merge.value_counts()

In [None]:
# Union tipo inner
df_ventas_i = pd.merge(left=df_ventas_t, right=df_precios,
                      how='inner', left_on='producto', right_on='producto')
df_ventas_i

In [None]:
# Union tipo inner
df_ventas_r = pd.merge(left=df_ventas_t, right=df_precios,
                      how='right', left_on='producto', right_on='producto')
df_ventas_r

Otra opción es __pandas.merge_asof__ que no cruza por clave exacta, sino por la clave más cercana (ejemlo fecha más cercana)

Pruebas rendimiento Pandas

In [None]:
n_rows = 100000
n_cols = 20
df = pd.DataFrame(np.random.randint(0, 100, size=(n_rows, n_cols)), columns=['col%d' % i for i in range(n_cols)])

In [None]:
df.head()

In [None]:
df.shape

In [None]:
df.info(memory_usage='deep')

In [None]:
# fichero 140 Mb
df_polizas = pd.read_csv("ficheros\\POLIZAS3.csv",   sep=',', header='infer')
df_polizas.head(10)

In [None]:
df_polizas.shape

In [None]:
df_polizas.info(memory_usage='deep')

In [None]:
# realizamos un agregado para ver tiempos
df_polizas.groupby(['tipo_poliza']).sum()['capital']

In [None]:
df_polizas.groupby(['tipo_poliza']).count()['id_poliza']

In [None]:
# Los uno para tener 10 millones
df_total = pd.concat([df_polizas, df_polizas, df_polizas])
df_total.count()

In [None]:
df_total.groupby(['tipo_poliza']).count()['id_poliza']

In [None]:
df_total.info(memory_usage='deep')

Diferencia entre realizar varios pasos o __concatenar métodos__. Em datasets grandes ahorramos mucho __espacio en memoria__

In [None]:
%%timeit
df_polizas2 = df_polizas.fillna(0)
df_polizas3 = df_polizas2.drop_duplicates()
df_polizas4 = df_polizas3.groupby(['tipo_poliza']).sum()['capital']
df_polizas4.plot(kind = "bar")

In [None]:
%%timeit
df_polizas.fillna(0).drop_duplicates().groupby(['tipo_poliza']).sum()['capital'].plot(kind = "bar")

Es interesante revisar la memoria ocupada en el equipo o servidor (monitor de procesos).
Borrar y revisarlo de nuevo

In [None]:
del df_total

Uso de otros __formatos__ de fichero más óptimos: parquet y pickel

Pickle es el formato propio de Python para serializar datos (binario). Las lecturas y escrituras son más rápidas que en un csv. El tamaño del fichero es menor y mantiene los tipos de datos mejor que un csv

In [None]:
df_polizas.to_pickle("ficheros\\polizas.pickle")

In [None]:
%%timeit
df_polizas2 = pd.read_pickle("ficheros\\polizas.pickle")

In [None]:
%%timeit
df_polizas = pd.read_csv("ficheros\\POLIZAS3.csv",   sep=',', header='infer')

Una estimación que se suele utilizar es reservar en RAM un espacio equivalente al 3 veces el tamaño del csv

Apache Parquet es un formato binario, comprimido y de almacenamiento columnar empleado en Big Data. Las lecturas y escrituras son más rápidas que en un csv. El tamaño del fichero es menor y mantiene los tipos de datos mejor que un csv

In [None]:
#pip install pyarrow
df_polizas.to_parquet("ficheros\\polizas.parquet.gzip", compression='gzip', engine='pyarrow')
# se reduce el espacio de forma drástica

In [None]:
%%timeit
df_polizas3 = pd.read_parquet("ficheros\\polizas.parquet.gzip")