# Preparación de los datos

In [1]:
import pandas as pd
import numpy as np
import re

In [2]:
import warnings
warnings.filterwarnings('ignore')

In [3]:
%%writefile /tmp/data.csv
factura_id,valor,porcentaje
1,200$,11.3%
2,220$,3.5%
3,128$,4.5%
4,300$,11.6%
5,202$,5.1%

Overwriting /tmp/data.csv


In [4]:
df = pd.read_csv('/tmp/data.csv')

display(
    df,
    df.dtypes
)

Unnamed: 0,factura_id,valor,porcentaje
0,1,200$,11.3%
1,2,220$,3.5%
2,3,128$,4.5%
3,4,300$,11.6%
4,5,202$,5.1%


factura_id     int64
valor         object
porcentaje    object
dtype: object

In [5]:
df.describe()

Unnamed: 0,factura_id
count,5.0
mean,3.0
std,1.581139
min,1.0
25%,2.0
50%,3.0
75%,4.0
max,5.0


In [6]:
df.valor = df.valor.str.strip('$')
df.valor = df.valor.astype(int)

In [7]:
df.describe()

Unnamed: 0,factura_id,valor
count,5.0,5.0
mean,3.0,210.0
std,1.581139,61.41661
min,1.0,128.0
25%,2.0,200.0
50%,3.0,202.0
75%,4.0,220.0
max,5.0,300.0


In [8]:
df.porcentaje = df.porcentaje.str.strip('%')
df.porcentaje = df.porcentaje.astype(float)

In [9]:
df.describe()

Unnamed: 0,factura_id,valor,porcentaje
count,5.0,5.0,5.0
mean,3.0,210.0,7.2
std,1.581139,61.41661,3.923009
min,1.0,128.0,3.5
25%,2.0,200.0,4.5
50%,3.0,202.0,5.1
75%,4.0,220.0,11.3
max,5.0,300.0,11.6


In [10]:
display(df.dtypes)

factura_id      int64
valor           int64
porcentaje    float64
dtype: object

In [11]:
%%writefile /tmp/data.csv
id,status
1,0
2,0
3,1
3,2
4,2

Overwriting /tmp/data.csv


In [12]:
df = pd.read_csv('/tmp/data.csv')

display(
    df,
    df.dtypes
)

Unnamed: 0,id,status
0,1,0
1,2,0
2,3,1
3,3,2
4,4,2


id        int64
status    int64
dtype: object

In [13]:
df.status = df.status.astype('category')

display(
    df,
    df.dtypes
)

Unnamed: 0,id,status
0,1,0
1,2,0
2,3,1
3,3,2
4,4,2


id           int64
status    category
dtype: object

In [14]:
df.describe()

Unnamed: 0,id
count,5.0
mean,2.6
std,1.140175
min,1.0
25%,2.0
50%,3.0
75%,3.0
max,4.0


In [15]:
df.status

0    0
1    0
2    1
3    2
4    2
Name: status, dtype: category
Categories (3, int64): [0, 1, 2]

In [16]:
%%writefile /tmp/data.csv
id,rango
1,1
2,3
3,2
4,10
5,0
6,1
7,10
8,9

Overwriting /tmp/data.csv


In [17]:
df = pd.read_csv('/tmp/data.csv')

In [18]:
df[(df.rango < 1)|(df.rango > 3)].rango

3    10
4     0
6    10
7     9
Name: rango, dtype: int64

In [19]:
df.rango[df.rango > 3] = 3
df.rango[df.rango < 1] = 1
df

Unnamed: 0,id,rango
0,1,1
1,2,3
2,3,2
3,4,3
4,5,1
5,6,1
6,7,3
7,8,3


In [21]:
df = pd.read_csv('/tmp/data.csv')
df

Unnamed: 0,id,rango
0,1,1
1,2,3
2,3,2
3,4,10
4,5,0
5,6,1
6,7,10
7,8,9


In [22]:
df = df[(df.rango >= 1) & (df.rango <= 3)]
df

Unnamed: 0,id,rango
0,1,1
1,2,3
2,3,2
5,6,1


In [24]:
df = pd.read_csv('/tmp/data.csv')
df

Unnamed: 0,id,rango
0,1,1
1,2,3
2,3,2
3,4,10
4,5,0
5,6,1
6,7,10
7,8,9


In [26]:
df.drop(
    df[(df.rango < 1) | (df.rango > 3)].index,
    inplace=True
)
df

Unnamed: 0,id,rango
0,1,1
1,2,3
2,3,2
5,6,1


In [32]:
%%writefile /tmp/data.csv
id,fecha
1,10/01/2012
2,12/04/1890
3,10/10/2019
4,31/12/2021
5,10/12/2035
6,05/10/2018
7,05/10/2021
8,15/12/2020

Overwriting /tmp/data.csv


In [33]:
df = pd.read_csv('/tmp/data.csv')

display(
    df,
    df.dtypes
)

Unnamed: 0,id,fecha
0,1,10/01/2012
1,2,12/04/1890
2,3,10/10/2019
3,4,31/12/2021
4,5,10/12/2035
5,6,05/10/2018
6,7,05/10/2021
7,8,15/12/2020


id        int64
fecha    object
dtype: object

In [35]:
df.fecha = pd.to_datetime(df.fecha)

display(
    df,
    df.dtypes
)

Unnamed: 0,id,fecha
0,1,2012-10-01
1,2,1890-12-04
2,3,2019-10-10
3,4,2021-12-31
4,5,2035-10-12
5,6,2018-05-10
6,7,2021-05-10
7,8,2020-12-15


id                int64
fecha    datetime64[ns]
dtype: object

In [36]:
import datetime as dt
hoy = pd.to_datetime(dt.date.today())
hoy

Timestamp('2021-09-23 00:00:00')

In [37]:
df[(df.fecha < pd.to_datetime('2000-01-01')) | (df.fecha > hoy)]

Unnamed: 0,id,fecha
1,2,1890-12-04
3,4,2021-12-31
4,5,2035-10-12


In [40]:
df.loc[df.fecha < '2000-01-01', 'fecha'] = pd.to_datetime('2000-01-01')
df

Unnamed: 0,id,fecha
0,1,2012-10-01
1,2,2000-01-01
2,3,2019-10-10
3,4,2021-12-31
4,5,2035-10-12
5,6,2018-05-10
6,7,2021-05-10
7,8,2020-12-15


In [41]:
df.loc[df.fecha > hoy, 'fecha'] = hoy
df

Unnamed: 0,id,fecha
0,1,2012-10-01
1,2,2000-01-01
2,3,2019-10-10
3,4,2021-09-23
4,5,2021-09-23
5,6,2018-05-10
6,7,2021-05-10
7,8,2020-12-15


In [42]:
df.dtypes

id                int64
fecha    datetime64[ns]
dtype: object

In [57]:
%%writefile /tmp/data.csv
id,nombre,telefono,empresa_id,genero
1,Helena,+1 237,1,F
2,Juan,+1 345,1,M
1,Helena,+1 237,1,F
3,Miguel,+1 456,4,M
5,Miguel,+1 567,4,M
6,Jose,+1 980,2,M
7,Ana,+1 123,6,F
6,Jose,+1 980,2,M
7,Ana,+1 123,6,F
1,Helena,+1 237,1,F
1,Helena,+1 237,1,F

Overwriting /tmp/data.csv


In [58]:
df = pd.read_csv('/tmp/data.csv')

display(
    df,
    df.dtypes
)

Unnamed: 0,id,nombre,telefono,empresa_id,genero
0,1,Helena,+1 237,1,F
1,2,Juan,+1 345,1,M
2,1,Helena,+1 237,1,F
3,3,Miguel,+1 456,4,M
4,5,Miguel,+1 567,4,M
5,6,Jose,+1 980,2,M
6,7,Ana,+1 123,6,F
7,6,Jose,+1 980,2,M
8,7,Ana,+1 123,6,F
9,1,Helena,+1 237,1,F


id             int64
nombre        object
telefono      object
empresa_id     int64
genero        object
dtype: object

In [59]:
df.duplicated()

0     False
1     False
2      True
3     False
4     False
5     False
6     False
7      True
8      True
9      True
10     True
dtype: bool

In [60]:
df[df.duplicated(keep='first')]

Unnamed: 0,id,nombre,telefono,empresa_id,genero
2,1,Helena,+1 237,1,F
7,6,Jose,+1 980,2,M
8,7,Ana,+1 123,6,F
9,1,Helena,+1 237,1,F
10,1,Helena,+1 237,1,F


In [61]:
df[df.duplicated(keep='last')]

Unnamed: 0,id,nombre,telefono,empresa_id,genero
0,1,Helena,+1 237,1,F
2,1,Helena,+1 237,1,F
5,6,Jose,+1 980,2,M
6,7,Ana,+1 123,6,F
9,1,Helena,+1 237,1,F


In [62]:
df[df.duplicated(
    subset=['nombre','empresa_id'],
    keep=False
)]

Unnamed: 0,id,nombre,telefono,empresa_id,genero
0,1,Helena,+1 237,1,F
2,1,Helena,+1 237,1,F
3,3,Miguel,+1 456,4,M
4,5,Miguel,+1 567,4,M
5,6,Jose,+1 980,2,M
6,7,Ana,+1 123,6,F
7,6,Jose,+1 980,2,M
8,7,Ana,+1 123,6,F
9,1,Helena,+1 237,1,F
10,1,Helena,+1 237,1,F


In [63]:
df[df.duplicated()]

Unnamed: 0,id,nombre,telefono,empresa_id,genero
2,1,Helena,+1 237,1,F
7,6,Jose,+1 980,2,M
8,7,Ana,+1 123,6,F
9,1,Helena,+1 237,1,F
10,1,Helena,+1 237,1,F


In [65]:
df.drop_duplicates(inplace=True)
df

Unnamed: 0,id,nombre,telefono,empresa_id,genero
0,1,Helena,+1 237,1,F
1,2,Juan,+1 345,1,M
3,3,Miguel,+1 456,4,M
4,5,Miguel,+1 567,4,M
5,6,Jose,+1 980,2,M
6,7,Ana,+1 123,6,F


In [69]:
%%writefile /tmp/data.csv
id,categoria
1,AA
2,A
3,AB
4,Z
5,AA
6,ZB
7,BA
8,BB

Overwriting /tmp/data.csv


In [70]:
df = pd.read_csv('/tmp/data.csv')
display(
    df,
    df.dtypes
)

Unnamed: 0,id,categoria
0,1,AA
1,2,A
2,3,AB
3,4,Z
4,5,AA
5,6,ZB
6,7,BA
7,8,BB


id            int64
categoria    object
dtype: object

In [71]:
validas = {'AA','AB','BA','BB'}
set(df.categoria).difference(validas)


{'A', 'Z', 'ZB'}

In [72]:
df[~df.categoria.isin(validas)]

Unnamed: 0,id,categoria
1,2,A
3,4,Z
5,6,ZB


In [73]:
df = df[df.categoria.isin(validas)]
df

Unnamed: 0,id,categoria
0,1,AA
2,3,AB
4,5,AA
6,7,BA
7,8,BB


In [76]:
%%writefile /tmp/data.csv
id,estado
1,leve
2,Leve
3,LEVE
4,Grave
5,GRAVE
6,fallecido
7,Fallecido
8,leve
9,leve
10,GRAVE
11,Grave
12,fallecido
13,fallecido

Overwriting /tmp/data.csv


In [77]:
df = pd.read_csv('/tmp/data.csv')
df

Unnamed: 0,id,estado
0,1,leve
1,2,Leve
2,3,LEVE
3,4,Grave
4,5,GRAVE
5,6,fallecido
6,7,Fallecido
7,8,leve
8,9,leve
9,10,GRAVE


In [78]:
df.estado.value_counts()

leve         3
fallecido    3
GRAVE        2
Grave        2
Leve         1
Fallecido    1
LEVE         1
Name: estado, dtype: int64

In [79]:
estado_df = pd.DataFrame({'estado': list(df.estado)})
estado_df

Unnamed: 0,estado
0,leve
1,Leve
2,LEVE
3,Grave
4,GRAVE
5,fallecido
6,Fallecido
7,leve
8,leve
9,GRAVE


In [80]:
estado_df = estado_df.drop_duplicates()
estado_df

Unnamed: 0,estado
0,leve
1,Leve
2,LEVE
3,Grave
4,GRAVE
5,fallecido
6,Fallecido


In [81]:
estado_df['key'] = estado_df.estado.str.lower()
estado_df

Unnamed: 0,estado,key
0,leve,leve
1,Leve,leve
2,LEVE,leve
3,Grave,grave
4,GRAVE,grave
5,fallecido,fallecido
6,Fallecido,fallecido


In [83]:
estado_df.groupby('key').agg(list)

Unnamed: 0_level_0,estado
key,Unnamed: 1_level_1
fallecido,"[fallecido, Fallecido]"
grave,"[Grave, GRAVE]"
leve,"[leve, Leve, LEVE]"


In [84]:
df['estado'] = df.estado.str.lower()
df

Unnamed: 0,id,estado
0,1,leve
1,2,leve
2,3,leve
3,4,grave
4,5,grave
5,6,fallecido
6,7,fallecido
7,8,leve
8,9,leve
9,10,grave


In [85]:
df.estado.value_counts()

leve         5
grave        4
fallecido    4
Name: estado, dtype: int64

In [90]:
%%writefile /tmp/data.csv
id,estado
1,mujer_leve
2,mujer Leve
3,MUJER_LEVE
4,hombre_Grave
5,hombre_GRAVE
6,hombre fallecido
7,hombre_Fallecido
8,hombre leve
9,mujer leve
10,hombre GRAVE
11,hombre Grave
12,mujer_fallecido
13,mujer fallecido
14,hombre_fallecido
15,hombre Fallecido
16,mujer_leve

Overwriting /tmp/data.csv


In [91]:
df = pd.read_csv('/tmp/data.csv')
df

Unnamed: 0,id,estado
0,1,mujer_leve
1,2,mujer Leve
2,3,MUJER_LEVE
3,4,hombre_Grave
4,5,hombre_GRAVE
5,6,hombre fallecido
6,7,hombre_Fallecido
7,8,hombre leve
8,9,mujer leve
9,10,hombre GRAVE


In [92]:
df.estado.value_counts()

mujer_leve          2
hombre leve         1
hombre fallecido    1
mujer fallecido     1
hombre Grave        1
mujer_fallecido     1
hombre_Grave        1
mujer Leve          1
hombre_Fallecido    1
hombre_fallecido    1
mujer leve          1
MUJER_LEVE          1
hombre Fallecido    1
hombre_GRAVE        1
hombre GRAVE        1
Name: estado, dtype: int64

In [93]:
estado_df = pd.DataFrame({ 'estado': list(df.estado)})
estado_df

Unnamed: 0,estado
0,mujer_leve
1,mujer Leve
2,MUJER_LEVE
3,hombre_Grave
4,hombre_GRAVE
5,hombre fallecido
6,hombre_Fallecido
7,hombre leve
8,mujer leve
9,hombre GRAVE


In [94]:
estado_df = estado_df.drop_duplicates()
estado_df

Unnamed: 0,estado
0,mujer_leve
1,mujer Leve
2,MUJER_LEVE
3,hombre_Grave
4,hombre_GRAVE
5,hombre fallecido
6,hombre_Fallecido
7,hombre leve
8,mujer leve
9,hombre GRAVE


In [95]:
estado_df['key'] = estado_df.estado.str.lower()
estado_df

Unnamed: 0,estado,key
0,mujer_leve,mujer_leve
1,mujer Leve,mujer leve
2,MUJER_LEVE,mujer_leve
3,hombre_Grave,hombre_grave
4,hombre_GRAVE,hombre_grave
5,hombre fallecido,hombre fallecido
6,hombre_Fallecido,hombre_fallecido
7,hombre leve,hombre leve
8,mujer leve,mujer leve
9,hombre GRAVE,hombre grave


In [96]:
estado_df.groupby('key').agg(list)

Unnamed: 0_level_0,estado
key,Unnamed: 1_level_1
hombre fallecido,"[hombre fallecido, hombre Fallecido]"
hombre grave,"[hombre GRAVE, hombre Grave]"
hombre leve,[hombre leve]
hombre_fallecido,"[hombre_Fallecido, hombre_fallecido]"
hombre_grave,"[hombre_Grave, hombre_GRAVE]"
mujer fallecido,[mujer fallecido]
mujer leve,"[mujer Leve, mujer leve]"
mujer_fallecido,[mujer_fallecido]
mujer_leve,"[mujer_leve, MUJER_LEVE]"


In [97]:
estado_df['key'] = estado_df.key.str.replace(' ', '_')
estado_df

Unnamed: 0,estado,key
0,mujer_leve,mujer_leve
1,mujer Leve,mujer_leve
2,MUJER_LEVE,mujer_leve
3,hombre_Grave,hombre_grave
4,hombre_GRAVE,hombre_grave
5,hombre fallecido,hombre_fallecido
6,hombre_Fallecido,hombre_fallecido
7,hombre leve,hombre_leve
8,mujer leve,mujer_leve
9,hombre GRAVE,hombre_grave


In [98]:
estado_df.groupby('key').agg(list)

Unnamed: 0_level_0,estado
key,Unnamed: 1_level_1
hombre_fallecido,"[hombre fallecido, hombre_Fallecido, hombre_fa..."
hombre_grave,"[hombre_Grave, hombre_GRAVE, hombre GRAVE, hom..."
hombre_leve,[hombre leve]
mujer_fallecido,"[mujer_fallecido, mujer fallecido]"
mujer_leve,"[mujer_leve, mujer Leve, MUJER_LEVE, mujer leve]"


In [99]:
df['estado'] = df.estado.str.replace(' ', '_')
df['estado'] = df.estado.str.lower()
df

Unnamed: 0,id,estado
0,1,mujer_leve
1,2,mujer_leve
2,3,mujer_leve
3,4,hombre_grave
4,5,hombre_grave
5,6,hombre_fallecido
6,7,hombre_fallecido
7,8,hombre_leve
8,9,mujer_leve
9,10,hombre_grave


In [101]:
df.estado.value_counts()

mujer_leve          5
hombre_grave        4
hombre_fallecido    4
mujer_fallecido     2
hombre_leve         1
Name: estado, dtype: int64

In [102]:
%%writefile /tmp/data.csv
salario
1000
500
2000
800
1200
100
300
900
550
750
1500

Overwriting /tmp/data.csv


In [103]:
df = pd.read_csv('/tmp/data.csv')
df

Unnamed: 0,salario
0,1000
1,500
2,2000
3,800
4,1200
5,100
6,300
7,900
8,550
9,750


In [106]:
rangos = [0, 499, 999, 1499, np.inf]
nombres = ['0-499', '500-999', '1000-1499', '1500+']

df['categoria'] = pd.cut(
    df.salario,
    bins=rangos,
    labels=nombres
)
df

Unnamed: 0,salario,categoria
0,1000,1000-1499
1,500,500-999
2,2000,1500+
3,800,500-999
4,1200,1000-1499
5,100,0-499
6,300,0-499
7,900,500-999
8,550,500-999
9,750,500-999


In [107]:
df.categoria.value_counts()

500-999      5
0-499        2
1000-1499    2
1500+        2
Name: categoria, dtype: int64

In [108]:
%%writefile /tmp/data.csv
carros
spark
hummer
ram
i10
fiesta
festiva
tahoe
onix
aveo
blazer
captiva
spark
hummer
ram
i10
fiesta
festiva
tahoe
onix
aveo
blazer
captiva
ram
i10
fiesta
festiva
tahoe
onix
spark
hummer
ram
i10
fiesta
festiva
tahoe
onix
aveo
blazer
captiva
ram
i10

Overwriting /tmp/data.csv


In [109]:
mapping = {
    'spark':'urbanos',
    'hummer':'truks',
    'ram':'truks',
    'i10':'urbanos',
    'fiesta':'urbanos',
    'festiva':'urbanos',
    'tahoe':'camionetas',
    'onix':'urbanos',
    'aveo':'urbanos',
    'blazer':'camionetas',
    'captiva':'camionetas'
}

In [110]:
df = pd.read_csv('/tmp/data.csv')

In [111]:
df['categoria'] = df.carros.replace(mapping)
df

Unnamed: 0,carros,categoria
0,spark,urbanos
1,hummer,truks
2,ram,truks
3,i10,urbanos
4,fiesta,urbanos
5,festiva,urbanos
6,tahoe,camionetas
7,onix,urbanos
8,aveo,urbanos
9,blazer,camionetas


In [112]:
df.categoria.value_counts()

urbanos       23
camionetas    10
truks          8
Name: categoria, dtype: int64

In [113]:
%%writefile /tmp/data.csv
telefono
+057-634-345-789
57-456-234-456
 57.654.890.654
213
(057)-345-345-345
57 322 455 322

Overwriting /tmp/data.csv


In [149]:
df = pd.read_csv('/tmp/data.csv')
display(
    df,
    df.dtypes
)

Unnamed: 0,telefono
0,+057-634-345-789
1,57-456-234-456
2,57.654.890.654
3,213
4,(057)-345-345-345
5,57 322 455 322


telefono    object
dtype: object

In [150]:
df.sort_values('telefono', key=lambda series : [len(x) for x in series])

Unnamed: 0,telefono
3,213
1,57-456-234-456
5,57 322 455 322
2,57.654.890.654
0,+057-634-345-789
4,(057)-345-345-345


In [151]:
df.telefono = df.telefono.str.replace('+', '')
df.sort_values('telefono', key=lambda series : [len(x) for x in series])

Unnamed: 0,telefono
3,213
1,57-456-234-456
5,57 322 455 322
0,057-634-345-789
2,57.654.890.654
4,(057)-345-345-345


In [152]:
df.telefono = df.telefono.str.replace('[()]','')
df.sort_values('telefono', key=lambda series : [len(x) for x in series])

Unnamed: 0,telefono
3,213
1,57-456-234-456
5,57 322 455 322
0,057-634-345-789
2,57.654.890.654
4,057-345-345-345


In [153]:
df.telefono = df.telefono.map(lambda x: '0' + x if re.search(r"^57[\s\.\-]", x) else x)
df.sort_values('telefono', key=lambda series : [len(x) for x in series])

Unnamed: 0,telefono
3,213
0,057-634-345-789
1,057-456-234-456
2,57.654.890.654
4,057-345-345-345
5,057 322 455 322


In [154]:
df.telefono = df.telefono.map(lambda x: '0' + x[1:] if re.search(r"^\s57[\s\.\-]", x) else x)
df.sort_values('telefono', key=lambda series : [len(x) for x in series])

Unnamed: 0,telefono
3,213
0,057-634-345-789
1,057-456-234-456
2,057.654.890.654
4,057-345-345-345
5,057 322 455 322


In [155]:
df.telefono = df.telefono.str.replace(' ', '-')
df.sort_values('telefono', key=lambda series : [len(x) for x in series])

Unnamed: 0,telefono
3,213
0,057-634-345-789
1,057-456-234-456
2,057.654.890.654
4,057-345-345-345
5,057-322-455-322


In [156]:
df.telefono = df.telefono.str.replace('.', '-')
df.sort_values('telefono', key=lambda series : [len(x) for x in series])

Unnamed: 0,telefono
3,213
0,057-634-345-789
1,057-456-234-456
2,057-654-890-654
4,057-345-345-345
5,057-322-455-322


In [157]:
df.telefono = df.telefono.map(lambda x: np.nan if len(x) < 12 else x)
df

Unnamed: 0,telefono
0,057-634-345-789
1,057-456-234-456
2,057-654-890-654
3,
4,057-345-345-345
5,057-322-455-322


In [158]:
from fuzzywuzzy import fuzz, process

In [160]:
display(
    fuzz.WRatio('hola mundo', 'hola mundo'),
    fuzz.WRatio('hola mundo', 'Hola mundo'),
    fuzz.WRatio('hola mundo', 'hola Mundo'),
    fuzz.WRatio('hola mundo', 'hola mundo!')
)

100

100

100

100

In [161]:
display(
    fuzz.WRatio('hola mundo', 'hola mundo'),
    fuzz.WRatio('hola mundo', 'Hola'),
    fuzz.WRatio('hola mundo', 'Mundo'),
    fuzz.WRatio('hola mundo', 'hola mundo!'),
    fuzz.WRatio('hola mundo', 'hola muuundo'),
    fuzz.WRatio('hola mundo', 'hoooola mundo')
)

100

90

90

100

91

87

In [162]:
cadena = 'hola mundo'
arreglo = pd.Series(
    [
        'hola',
        'hola mundo',
        'mmmoo',
        'hola munnndooo'
    ]
)

process.extract(cadena, arreglo)

[('hola mundo', 100, 1),
 ('hola', 90, 0),
 ('hola munnndooo', 83, 3),
 ('mmmoo', 36, 2)]