## Problema:
La empresa FastDelivery, que ofrece un servicio de entrega de alimentos, cuenta con una base de datos de clientes y pedidos en constante crecimiento. Inicialmente, toda la información de sus clientes, como nombre, dirección y teléfono, se almacenaba en una hoja de cálculo simple en Excel. Sin embargo, con el tiempo, esa hoja ha crecido considerablemente, y ahora han decidido contratarte para manipular los datos y optimizar su análisis para estudios futuros.


In [1]:
# Importando la hoja de cálculo de datos de clientes
import pandas as pd

# Leer el archivo Excel
df = pd.read_excel("banco_clientes.xlsx")

# Guardar como CSV
df.to_csv("banco_clientes.csv", index=False)

df = pd.read_csv("banco_clientes.csv")
df


Unnamed: 0,nombre,direccion,telefono
0,Carlos Mendoza,"Calle 22 de Abril, 12 52614-524",11 99548-2578
1,JavieR Fernández,"Calle Alvarenga Borges, 573 29285-678",11 99999-1234
2,María López,Av. Buen Suceso 1283 87654-321,11 98765-4321
3,pedro martínez,"Calle Colombo, 789 45678-912",11 91234-5678
4,ana gómez,"Calle Dinamarca, 1011 34567-890",11 99876-5432
5,José Rodríguez,"Av. Ermeson, 23456-789 1213",(11) 97654-3210
6,mariana castro,"Calle de las Flores, 15 56789-123",11 95555-6789
7,LUCAS GARCÍA,"Av. Governador, 1617 67890-234",11 94444-5678
8,Carla santos,"Calle Hélio Gracie, 19 78901-345",11 93333-4567
9,Felipe Martínez,"Av. 28 de Novembro, 221 89012-456",(11) 92222-7890


* Padronizar los nombres de los clientes en letra mayúscula
* Padronizar la columna de teléfonos al formato XX XXXXX-XXXX
* Crear una columna únicamente con los códigos postales
* Separar la dirección en dos columnas: calle y número

## Padronizar los nombres de los clientes en letra mayúscula

Para facilitar la búsqueda y evitar duplicidades causadas por variaciones en la capitalización de los nombres, se debe convertir todos los nombres a mayúsculas. Esto puede hacerse con una función que aplique .str.upper() a la columna de nombres.

In [2]:
# Convirtiendo todos los nombres de los clientes a mayúsculas para estandarizar la columna
df["nombre"] = df["nombre"].str.upper()
df.columns

Index(['nombre', 'direccion', 'telefono'], dtype='object')

## Padronizar la columna de teléfonos al formato XX XXXXX-XXXX

Los números de teléfono deben tener un formato consistente para facilitar su lectura y uso. Debemos asegurarnos de que todos los teléfonos sigan el formato estándar de dos dígitos para el código de área (XX) seguido por un número de teléfono de nueve dígitos, con un guion separando los últimos cuatro dígitos. Para esto, podemos aplicar una función que formatee los números de manera adecuada.

In [3]:
# Eliminando los paréntesis de la columna 'telefono' para estandarizar el formato de los números
df.telefono.str.replace("(", "", regex=False)


0      11 99548-2578
1      11 99999-1234
2      11 98765-4321
3      11 91234-5678
4      11 99876-5432
5     11) 97654-3210
6      11 95555-6789
7      11 94444-5678
8      11 93333-4567
9     11) 92222-7890
10     11 91111-2345
11    11) 90000-5678
12    11) 98888-9012
13    11) 97777-2345
14     11 96666-5678
15    11) 95555-9012
16     11 94444-2345
17    11) 93333-5678
18     11 92222-9012
19     11 91111-2345
20    11) 90000-5678
Name: telefono, dtype: object

In [4]:
df.telefono.str.replace("(", "", regex=False).str.replace(")", "", regex=False)

0     11 99548-2578
1     11 99999-1234
2     11 98765-4321
3     11 91234-5678
4     11 99876-5432
5     11 97654-3210
6     11 95555-6789
7     11 94444-5678
8     11 93333-4567
9     11 92222-7890
10    11 91111-2345
11    11 90000-5678
12    11 98888-9012
13    11 97777-2345
14    11 96666-5678
15    11 95555-9012
16    11 94444-2345
17    11 93333-5678
18    11 92222-9012
19    11 91111-2345
20    11 90000-5678
Name: telefono, dtype: object

In [5]:
df["telefono"] = df.telefono.str.replace("(", "", regex=False).str.replace(")", "", regex=False)
df

Unnamed: 0,nombre,direccion,telefono
0,CARLOS MENDOZA,"Calle 22 de Abril, 12 52614-524",11 99548-2578
1,JAVIER FERNÁNDEZ,"Calle Alvarenga Borges, 573 29285-678",11 99999-1234
2,MARÍA LÓPEZ,Av. Buen Suceso 1283 87654-321,11 98765-4321
3,PEDRO MARTÍNEZ,"Calle Colombo, 789 45678-912",11 91234-5678
4,ANA GÓMEZ,"Calle Dinamarca, 1011 34567-890",11 99876-5432
5,JOSÉ RODRÍGUEZ,"Av. Ermeson, 23456-789 1213",11 97654-3210
6,MARIANA CASTRO,"Calle de las Flores, 15 56789-123",11 95555-6789
7,LUCAS GARCÍA,"Av. Governador, 1617 67890-234",11 94444-5678
8,CARLA SANTOS,"Calle Hélio Gracie, 19 78901-345",11 93333-4567
9,FELIPE MARTÍNEZ,"Av. 28 de Novembro, 221 89012-456",11 92222-7890


## Crear una columna únicamente con los códigos postales

Si actualmente la columna de direcciones contiene el código postal mezclado con otros datos, es necesario extraerlo y colocarlo en una columna separada. Esto facilitará la segmentación y el análisis de datos por ubicación geográfica.

In [6]:
df.direccion.str.extract(r"(\d{5}-\d{3})")

Unnamed: 0,0
0,52614-524
1,29285-678
2,87654-321
3,45678-912
4,34567-890
5,23456-789
6,56789-123
7,67890-234
8,78901-345
9,89012-456


**Expresión Regular (\d{5}-\d{3})**
* \d: Representa un dígito (0-9).
* {5}: Especifica que se deben buscar exactamente 5 dígitos consecutivos.
* -: Busca el carácter guion literal que separa los dos grupos de dígitos.
* \d{3}: Especifica que se deben buscar exactamente 3 dígitos consecutivos.

In [7]:
df["CP"] = df.direccion.str.extract(r"(\d{5}-\d{3})")
df

Unnamed: 0,nombre,direccion,telefono,CP
0,CARLOS MENDOZA,"Calle 22 de Abril, 12 52614-524",11 99548-2578,52614-524
1,JAVIER FERNÁNDEZ,"Calle Alvarenga Borges, 573 29285-678",11 99999-1234,29285-678
2,MARÍA LÓPEZ,Av. Buen Suceso 1283 87654-321,11 98765-4321,87654-321
3,PEDRO MARTÍNEZ,"Calle Colombo, 789 45678-912",11 91234-5678,45678-912
4,ANA GÓMEZ,"Calle Dinamarca, 1011 34567-890",11 99876-5432,34567-890
5,JOSÉ RODRÍGUEZ,"Av. Ermeson, 23456-789 1213",11 97654-3210,23456-789
6,MARIANA CASTRO,"Calle de las Flores, 15 56789-123",11 95555-6789,56789-123
7,LUCAS GARCÍA,"Av. Governador, 1617 67890-234",11 94444-5678,67890-234
8,CARLA SANTOS,"Calle Hélio Gracie, 19 78901-345",11 93333-4567,78901-345
9,FELIPE MARTÍNEZ,"Av. 28 de Novembro, 221 89012-456",11 92222-7890,89012-456


In [8]:
df.direccion.str.replace(r'\d{5}-\d{3}', '', regex=True)

0           Calle 22 de Abril, 12   
1       Calle Alvarenga Borges, 573 
2           Av. Buen Suceso 1283    
3               Calle Colombo, 789  
4            Calle Dinamarca, 1011  
5                 Av. Ermeson,  1213
6          Calle de las Flores, 15  
7              Av. Governador, 1617 
8            Calle Hélio Gracie, 19 
9           Av. 28 de Novembro, 221 
10                Calle Joana 423   
11                  Av. Brasil, 245 
12        Calle del Lamparao, 2627  
13         Calle del Chuvisco, 2829 
14               Av. Goytacaz, 3031 
15            Av. Areia Negra,  3233
16      Calle de las Palmeras, 3435 
17                  Av. Oliva, 3637 
18                  Calle Peri, 339 
19               Av. Balestrin 1337 
20    Calle Nicolás Copérnico,  1543
Name: direccion, dtype: object

In [9]:
df['direccion'] = df.direccion.str.replace(r'\d{5}-\d{3}', '', regex=True).str.strip()
df

Unnamed: 0,nombre,direccion,telefono,CP
0,CARLOS MENDOZA,"Calle 22 de Abril, 12",11 99548-2578,52614-524
1,JAVIER FERNÁNDEZ,"Calle Alvarenga Borges, 573",11 99999-1234,29285-678
2,MARÍA LÓPEZ,Av. Buen Suceso 1283,11 98765-4321,87654-321
3,PEDRO MARTÍNEZ,"Calle Colombo, 789",11 91234-5678,45678-912
4,ANA GÓMEZ,"Calle Dinamarca, 1011",11 99876-5432,34567-890
5,JOSÉ RODRÍGUEZ,"Av. Ermeson, 1213",11 97654-3210,23456-789
6,MARIANA CASTRO,"Calle de las Flores, 15",11 95555-6789,56789-123
7,LUCAS GARCÍA,"Av. Governador, 1617",11 94444-5678,67890-234
8,CARLA SANTOS,"Calle Hélio Gracie, 19",11 93333-4567,78901-345
9,FELIPE MARTÍNEZ,"Av. 28 de Novembro, 221",11 92222-7890,89012-456


## Separar la dirección en dos columnas: calle y número

 La dirección del cliente debe dividirse en dos columnas: una para la calle (o nombre de la vía) y otra para el número de la casa o apartamento. Esto permite un análisis más preciso y simplifica las búsquedas o el uso de la información para futuras operaciones logísticas.

In [10]:
df.direccion.str.split(',', expand=True)

Unnamed: 0,0,1
0,Calle 22 de Abril,12.0
1,Calle Alvarenga Borges,573.0
2,Av. Buen Suceso 1283,
3,Calle Colombo,789.0
4,Calle Dinamarca,1011.0
5,Av. Ermeson,1213.0
6,Calle de las Flores,15.0
7,Av. Governador,1617.0
8,Calle Hélio Gracie,19.0
9,Av. 28 de Novembro,221.0


In [11]:
df.direccion.str.split(r'\s(?=\d+$)', expand=True)

Unnamed: 0,0,1
0,"Calle 22 de Abril,",12
1,"Calle Alvarenga Borges,",573
2,Av. Buen Suceso,1283
3,"Calle Colombo,",789
4,"Calle Dinamarca,",1011
5,"Av. Ermeson,",1213
6,"Calle de las Flores,",15
7,"Av. Governador,",1617
8,"Calle Hélio Gracie,",19
9,"Av. 28 de Novembro,",221


 **La expresión regular  `\s(?=\d+$)`**
* \s: Representa un espacio en blanco (como un espacio, tabulación, etc.).
* (`?=\d+$`): Es una afirmación de anticipación positiva (lookahead) que verifica si la parte después del espacio consiste solo en dígitos (\d+) hasta el final de la cadena ($). En otras palabras, busca un espacio en blanco que esté seguido por dígitos hasta el final de la cadena.

In [12]:
df.direccion.str.replace(",", "").str.split(r'\s(?=\d+$)', expand=True)

Unnamed: 0,0,1
0,Calle 22 de Abril,12
1,Calle Alvarenga Borges,573
2,Av. Buen Suceso,1283
3,Calle Colombo,789
4,Calle Dinamarca,1011
5,Av. Ermeson,1213
6,Calle de las Flores,15
7,Av. Governador,1617
8,Calle Hélio Gracie,19
9,Av. 28 de Novembro,221


In [13]:
df[["calle", "numero"]] = df.direccion.str.replace(",", "").str.split(r'\s(?=\d+$)', regex=True, expand=True)

In [14]:
df

Unnamed: 0,nombre,direccion,telefono,CP,calle,numero
0,CARLOS MENDOZA,"Calle 22 de Abril, 12",11 99548-2578,52614-524,Calle 22 de Abril,12
1,JAVIER FERNÁNDEZ,"Calle Alvarenga Borges, 573",11 99999-1234,29285-678,Calle Alvarenga Borges,573
2,MARÍA LÓPEZ,Av. Buen Suceso 1283,11 98765-4321,87654-321,Av. Buen Suceso,1283
3,PEDRO MARTÍNEZ,"Calle Colombo, 789",11 91234-5678,45678-912,Calle Colombo,789
4,ANA GÓMEZ,"Calle Dinamarca, 1011",11 99876-5432,34567-890,Calle Dinamarca,1011
5,JOSÉ RODRÍGUEZ,"Av. Ermeson, 1213",11 97654-3210,23456-789,Av. Ermeson,1213
6,MARIANA CASTRO,"Calle de las Flores, 15",11 95555-6789,56789-123,Calle de las Flores,15
7,LUCAS GARCÍA,"Av. Governador, 1617",11 94444-5678,67890-234,Av. Governador,1617
8,CARLA SANTOS,"Calle Hélio Gracie, 19",11 93333-4567,78901-345,Calle Hélio Gracie,19
9,FELIPE MARTÍNEZ,"Av. 28 de Novembro, 221",11 92222-7890,89012-456,Av. 28 de Novembro,221


In [15]:
df = df.drop(["direccion"], axis=1)
df

Unnamed: 0,nombre,telefono,CP,calle,numero
0,CARLOS MENDOZA,11 99548-2578,52614-524,Calle 22 de Abril,12
1,JAVIER FERNÁNDEZ,11 99999-1234,29285-678,Calle Alvarenga Borges,573
2,MARÍA LÓPEZ,11 98765-4321,87654-321,Av. Buen Suceso,1283
3,PEDRO MARTÍNEZ,11 91234-5678,45678-912,Calle Colombo,789
4,ANA GÓMEZ,11 99876-5432,34567-890,Calle Dinamarca,1011
5,JOSÉ RODRÍGUEZ,11 97654-3210,23456-789,Av. Ermeson,1213
6,MARIANA CASTRO,11 95555-6789,56789-123,Calle de las Flores,15
7,LUCAS GARCÍA,11 94444-5678,67890-234,Av. Governador,1617
8,CARLA SANTOS,11 93333-4567,78901-345,Calle Hélio Gracie,19
9,FELIPE MARTÍNEZ,11 92222-7890,89012-456,Av. 28 de Novembro,221


In [16]:
df.to_csv("banco_clientes_procesado.csv", index=False)