## Procesamiento de datos integración de fuentes diferentes.

In [66]:
import numpy as np
import pandas as pd
import os

# Padding

En algunas ocasiones algunos códigos quedan con los ceros a la izquierda truncados, esto se da cuando se esportan archivos y no se especifican el tipo de cada una de las columnas

In [None]:

data = pd.DataFrame({'cod':['5001', '76001', '5001']})
data['Codigo'] = data['cod'].str.pad(width=5, side='left', fillchar='0')
data['Codigo']

# Susbstring(slicing)

Otros problema relevante surge cuando se requiere separar un código en dos columnas, por ejemplo el código del municipio en Colombia está conformado por cinco caracteres, los dos primeros asociados al departamento, los últimso tres asociados al municipio. Medellín, Antioquia (05001), Cali (76001). Se creará una columna para el departamento y otra para el municipio:

In [52]:
df_mpios = pd.DataFrame({'cod':['05001', '76001', '11001', '25178']})
df_mpios

Unnamed: 0,cod
0,5001
1,76001
2,11001
3,25178


In [56]:
df_mpios['Dpto'] = df_mpios['cod'].str.slice(start = 0, stop = 2)
df_mpios['Mpio'] = df_mpios['cod'].str.slice(start = 2, stop = 5)
df_mpios

Unnamed: 0,cod,Dpto,Mpio
0,5001,5,1
1,76001,76,1
2,11001,11,1
3,25178,25,178


# Concatenar texto

In [59]:
df_mpios['Codigo'] = df_mpios['Dpto'] + df_mpios['Mpio']
df_mpios

Unnamed: 0,cod,Dpto,Mpio,Codigo
0,5001,5,1,5001
1,76001,76,1,76001
2,11001,11,1,11001
3,25178,25,178,25178


In [62]:
df_mpios['Codigo2'] = df_mpios['Dpto'] + '_' + df_mpios['Mpio']
df_mpios

Unnamed: 0,cod,Dpto,Mpio,Codigo,Codigo2
0,5001,5,1,5001,05_001
1,76001,76,1,76001,76_001
2,11001,11,1,11001,11_001
3,25178,25,178,25178,25_178


# Append/bind

In [None]:
X <- data.frame(A=1:10, B=LETTERS[1:10], C=rnorm(10) )
Y <- data.frame(A=11:15, D=rnorm(5), E=letters[1:5] )

In [29]:
X = pd.DataFrame({'A':np.arange(1, 11, 1),'B':list(map(chr, range(65, 75))),'C':np.random.normal(0, 1, 10),'Z':['M','M','F','M','F','M','F','F','M','F']})
Y = pd.DataFrame({'A':np.arange(11, 16, 1),'D':np.random.normal(0, 1, 5), 'E':list(map(chr, range(65, 70))),'Z':['F','F','M','F','M']})

In [30]:
X

Unnamed: 0,A,B,C,Z
0,1,A,0.864251,M
1,2,B,0.28062,M
2,3,C,-0.029388,F
3,4,D,-0.047968,M
4,5,E,-0.854641,F
5,6,F,0.984071,M
6,7,G,1.925387,F
7,8,H,1.198373,F
8,9,I,0.383437,M
9,10,J,0.457043,F


In [31]:
Y

Unnamed: 0,A,D,E,Z
0,11,0.329864,A,F
1,12,0.070793,B,F
2,13,0.086772,C,M
3,14,0.760862,D,F
4,15,-0.394661,E,M


In [32]:
pd.concat([X, Y])

of pandas will change to not sort by default.

To accept the future behavior, pass 'sort=False'.


  """Entry point for launching an IPython kernel.


Unnamed: 0,A,B,C,D,E,Z
0,1,A,0.864251,,,M
1,2,B,0.28062,,,M
2,3,C,-0.029388,,,F
3,4,D,-0.047968,,,M
4,5,E,-0.854641,,,F
5,6,F,0.984071,,,M
6,7,G,1.925387,,,F
7,8,H,1.198373,,,F
8,9,I,0.383437,,,M
9,10,J,0.457043,,,F


# Identificación de duplicados

In [77]:
#datos = pd.read_clipboard()
#datos.to_dict()
datos = pd.DataFrame({'ID': {0: 1, 1: 2, 2: 4, 3: 1, 4: 5, 5: 6, 6: 3, 7: 6},
 'X': {0: 6, 1: 8, 2: 8, 3: 10, 4: 8, 5: 10, 6: 4, 7: 6},
 'Y': {0: 'F', 1: 'M', 2: 'M', 3: 'M', 4: 'F', 5: 'M', 6: 'F', 7: 'F'}})
datos

Unnamed: 0,ID,X,Y
0,1,6,F
1,2,8,M
2,4,8,M
3,1,10,M
4,5,8,F
5,6,10,M
6,3,4,F
7,6,6,F


In [None]:
Para identificar los duplicados arrancando de arriba a abajo:

In [78]:
datos['ID'].duplicated() # Muestra los duplicados de arriba para abajo:

0    False
1    False
2    False
3     True
4    False
5    False
6    False
7     True
Name: ID, dtype: bool

Este es el número de valores duplicados

In [85]:
datos['ID'].duplicated().value_counts()

False    6
True     2
Name: ID, dtype: int64

Estos son los valores duplicados:

In [86]:
datos.loc[datos['ID'].duplicated(),]

Unnamed: 0,ID,X,Y
3,1,10,M
7,6,6,F


Y estos los no duplicados (más importante): 

In [89]:
datos.loc[~datos['ID'].duplicated(),]

Unnamed: 0,ID,X,Y
0,1,6,F
1,2,8,M
2,4,8,M
4,5,8,F
5,6,10,M
6,3,4,F


In [79]:
datos['ID'].duplicated(keep='last') # Muestra los duplicados de abajo para arriba:

0     True
1    False
2    False
3    False
4    False
5     True
6    False
7    False
Name: ID, dtype: bool

Ejercicio: conservar los no duplicados, conservando los valores que están abajo como los duplicados

Si se desea conservar por ejemplo ver las observaciones duplicadas (sin excluir la primera o la última) puede ser útil la opción keep = False

In [83]:
datos['ID'].duplicated(keep=False)

0     True
1    False
2    False
3     True
4    False
5     True
6    False
7     True
Name: ID, dtype: bool

In [92]:
datos.loc[datos['ID'].duplicated(keep=False),]

Unnamed: 0,ID,X,Y
0,1,6,F
3,1,10,M
5,6,10,M
7,6,6,F


# Join/Merge

In [36]:
import pandas as pd
import numpy as np
 
# data frame 1
df1 = pd.DataFrame({'Customer_id':pd.Series([1,2,3,4,5,6]),
  'Area':pd.Series(['Comercial','Comercial','Comercial','Operación','Operación','Operación'])})
 
# data frame 2
df2 = pd.DataFrame({'Customer_id':pd.Series([2,4,6]),
    'Salario':pd.Series([4000000,3000000,5000000])})

In [37]:
df1

Unnamed: 0,Customer_id,Area
0,1,Comercial
1,2,Comercial
2,3,Comercial
3,4,Operación
4,5,Operación
5,6,Operación


In [38]:
df2

Unnamed: 0,Customer_id,Salario
0,2,4000000
1,4,3000000
2,6,5000000


Inner join: conservar los registros comunes a ambas tablas.

In [42]:
df_inner = pd.merge(df1, df2, on='Customer_id', how='inner')
df_inner

Unnamed: 0,Customer_id,Area,Salario
0,2,Comercial,4000000
1,4,Operación,3000000
2,6,Operación,5000000


Left join: conservar los registros que están en la tabla de la izquierda.

In [43]:
df_left = pd.merge(df1, df2, on='Customer_id', how='left')
df_left

Unnamed: 0,Customer_id,Area,Salario
0,1,Comercial,
1,2,Comercial,4000000.0
2,3,Comercial,
3,4,Operación,3000000.0
4,5,Operación,
5,6,Operación,5000000.0


Right join: conservar los registros que están en la tabla de la derecha.

In [44]:
df_right = pd.merge(df1, df2, on='Customer_id', how='right')
df_right

Unnamed: 0,Customer_id,Area,Salario
0,2,Comercial,4000000
1,4,Operación,3000000
2,6,Operación,5000000


Outer join: conservar los registros que están en ambos lados de la tabla.

In [45]:
df_outer = pd.merge(df1, df2, on='Customer_id', how='outer')
df_outer

Unnamed: 0,Customer_id,Area,Salario
0,1,Comercial,
1,2,Comercial,4000000.0
2,3,Comercial,
3,4,Operación,3000000.0
4,5,Operación,
5,6,Operación,5000000.0


Ejercicio:join: unir la tabla de viviendas con la tabla de localidad (divipola)

In [None]:
#C:\Users\Home\Documents\Laboral2020\Konrad Lorenz\Datos Estructurados y No estructurados\clase4