# Problema

La empresa FastDelivery, que ofrece un servicio de entrega de alimentos, cuenta con una base de datos de clientes y pedidos en constante crecimiento. Inicialmente, toda la información de sus clientes, como nombre, dirección y teléfono, se almacenaba en una hoja de cálculo simple en Excel. Sin embargo, con el tiempo, esa hoja ha crecido considerablemente, y ahora han decidido contratarte para manipular los datos y optimizar su análisis para estudios futuros.

In [134]:
import pandas as pd

df = pd.read_excel('data/Banco_Clientes.xlsx')
df.head()

Unnamed: 0,nombre,direccion,telefono
0,Carlos Mendoza,"Calle 22 de Abril, 12 52614-524",11 99548-2578
1,JavieR Fernández,"Calle Alvarenga Borges, 573 29285-678",11 99999-1234
2,María López,Av. Buen Suceso 1283 87654-321,11 98765-4321
3,pedro martínez,"Calle Colombo, 789 45678-912",11 91234-5678
4,ana gómez,"Calle Dinamarca, 1011 34567-890",11 99876-5432


## Padronizar nombres de los clienters en mayúsculas

In [135]:
df["nombre"] = df["nombre"].str.upper()

In [136]:
df.head()

Unnamed: 0,nombre,direccion,telefono
0,CARLOS MENDOZA,"Calle 22 de Abril, 12 52614-524",11 99548-2578
1,JAVIER FERNÁNDEZ,"Calle Alvarenga Borges, 573 29285-678",11 99999-1234
2,MARÍA LÓPEZ,Av. Buen Suceso 1283 87654-321,11 98765-4321
3,PEDRO MARTÍNEZ,"Calle Colombo, 789 45678-912",11 91234-5678
4,ANA GÓMEZ,"Calle Dinamarca, 1011 34567-890",11 99876-5432


## Padronizar columna de teléfonos al formato XX XXXXX-XXXX

In [137]:
pattern = r"[0-9]{2}[\s][0-9]{5}[-][0-9]{4}"
df["telefono"] = df["telefono"].str.replace("(","").str.replace(")","").str.strip()

In [138]:
df["telefono"].size # 21
df["telefono"].str.match(pattern).sum()

np.int64(21)

## Crear columna únicamente con los códigos postales

In [139]:
pattern_cod_postal = r'([0-9]{5}[-][0-9]{3})'
df["cod_postal"] = df["direccion"].str.extract(pattern_cod_postal)

# quitar código postal de columna dirección
df["direccion"] = df["direccion"].str.replace(pattern_cod_postal, "", regex=True).str.strip()

In [140]:
df.head()

Unnamed: 0,nombre,direccion,telefono,cod_postal
0,CARLOS MENDOZA,"Calle 22 de Abril, 12",11 99548-2578,52614-524
1,JAVIER FERNÁNDEZ,"Calle Alvarenga Borges, 573",11 99999-1234,29285-678
2,MARÍA LÓPEZ,Av. Buen Suceso 1283,11 98765-4321,87654-321
3,PEDRO MARTÍNEZ,"Calle Colombo, 789",11 91234-5678,45678-912
4,ANA GÓMEZ,"Calle Dinamarca, 1011",11 99876-5432,34567-890


## Separar dirección en dos columnas: calle y número

In [None]:
pattern = r'[0-9]{2-4}[\s][0-9]{5}[-][0-9]{3}'
# Expand Permite separar la columna en 2
df["direccion"].str.split(',', expand=True)

Unnamed: 0,0,1
0,Calle 22 de Abril,12.0
1,Calle Alvarenga Borges,573.0
2,Av. Buen Suceso 1283,
3,Calle Colombo,789.0
4,Calle Dinamarca,1011.0
5,Av. Ermeson,1213.0
6,Calle de las Flores,15.0
7,Av. Governador,1617.0
8,Calle Hélio Gracie,19.0
9,Av. 28 de Novembro,221.0


Hay algunas filas que no tienen la coma. Habrá que buscar un espacio en blanco seguido de un dígito utilizando una expresión regular.

In [152]:
# ?= es un positive lookahead, verifica si es que despues del espacio habrá solo dígitos hasta el final de la cadena (simbolizado por $)
pattern_direccion = r'[\s](?=\d+$)'
df[["calle", "numero"]] = df["direccion"].str.replace(',','').str.split(pattern_direccion, expand=True)

In [154]:
df.head()

Unnamed: 0,nombre,direccion,telefono,cod_postal,calle,numero
0,CARLOS MENDOZA,"Calle 22 de Abril, 12",11 99548-2578,52614-524,Calle 22 de Abril,12
1,JAVIER FERNÁNDEZ,"Calle Alvarenga Borges, 573",11 99999-1234,29285-678,Calle Alvarenga Borges,573
2,MARÍA LÓPEZ,Av. Buen Suceso 1283,11 98765-4321,87654-321,Av. Buen Suceso,1283
3,PEDRO MARTÍNEZ,"Calle Colombo, 789",11 91234-5678,45678-912,Calle Colombo,789
4,ANA GÓMEZ,"Calle Dinamarca, 1011",11 99876-5432,34567-890,Calle Dinamarca,1011


In [None]:
# axis 0 es para fila, axis 1 para columna
df.drop("direccion", axis=1, inplace=True)

In [158]:
df.head()

Unnamed: 0,nombre,telefono,cod_postal,calle,numero
0,CARLOS MENDOZA,11 99548-2578,52614-524,Calle 22 de Abril,12
1,JAVIER FERNÁNDEZ,11 99999-1234,29285-678,Calle Alvarenga Borges,573
2,MARÍA LÓPEZ,11 98765-4321,87654-321,Av. Buen Suceso,1283
3,PEDRO MARTÍNEZ,11 91234-5678,45678-912,Calle Colombo,789
4,ANA GÓMEZ,11 99876-5432,34567-890,Calle Dinamarca,1011
