Javier Nieto Merodio 

ITAM Fuentes de Datos Primavera 2023

# **Tarea de Pandas #1**

In [1]:
# Importando librerías

import pandas as pd
import itertools
import random
import re

## **Parte 1: función apply**

La función apply es una de las más importantes para el manejo de la librería de pandas. En lo personal, uso esta función casi diario trabajando. Lo que nos permite es hacer operaciones con los datos de un pandas dataframe de manera eficiente. Si la

Una de las ventajas de apply es que podemos elegir a qué nivel del dataframe queremos hacer nuestras operaciones: columnas o renglones. Incluso, si queremos, podemos aplicar una operación apply a todos los datos del dataframe. 

El argumento <code>axis</code> funciona de la siguiente forma:
 - Para hacer operaciones a entre renglones: <code>axis = 0</code>.
 - Para hacer operaciones a entre columnas: <code>axis = 1</code>.

También, podemos elegir si hacer las operaciones entre datos de un grupo seleccionado, con <code>lambda x: funcion(x)</code>, o entre rows, usando <code>lambda row: row[a]/row[b]</code>

Un ejemplo sería el siguiente. Supongamos que tenemos un dataframe <code>df</code> con dos columnas <code>base</code> y <code>altura</code>, siendo bases y alturas de cuadrados. Si quisieramos crear una nueva columna <code>area</code> usando apply, haríamos lo siguiente:

 - <code>df['area'] = df.apply(lambda row: row['base']*row['altura'], axis = 1)</code>

## **Parte 2: función concat**

La función <code>concat</code> nos ayuda a *juntar* dos dataframes distintos de la forma que queramos: agregándolo como nuevos valores/nuevos renglones, o como nuevas columnas. Es importante ver la forma que tienen ambos dataframes para entender el resultado. Por ejemplo, al intentar juntar dos dataframes de nxm y axb, y juntarlos, pueden resultar en conflictos, o creación de nuevas columnas y/o renglones no esperados.

En este caso, <code>axis = 1</code> nos permite concatenar como nuevas columnas dataframes distintos. Veamos el siguiente ejemplo.

 - Sea <code>df1</code>:

|   | nombre | apellido |
|---|--------|----------|
| 0 | Javi   | Nieto    |
| 1 | Raton  | Perez    |

 - Sea <code>df2</code>:

|   | edad  | profesion  |
|---|-------|------------|
| 0 | 22    | estudiante |
| 1 | 120 | dentista   |

 - <code>df_nuevo = pd.concat([df1, df2], axis = 1)</code> nos regresa:

|   | nombre | apellido | edad  | profesion  |
|---|--------|----------|-------|------------|
| 0 | Javier | Nieto    | 22    | estudiante |
| 1 | Raton  | Perez    | 120 | dentista   |


Ahora, veamos el siguiente caso donde tenemos dos dataframes <code>df3</code> y <code>df4</code> que queremos unir como nuevas columnas, pero no coinciden en el índice. Para eso, usamos <code>ignore_index = True</code>. Veamos:

 - Sea <code>df3</code>:

|   | nombre | apellido |
|---|--------|----------|
| 0 | Don    | Cangrejo |
| 1 | Bob    | Espona   |

 - Sea <code>df4</code>:

|   | edad | profesion |
|---|------|-----------|
| 2 | 44   | Manager   |
| 5 | 28   | Chef      |

 - Usando <code>df_nuevo_2 = pd.concat([df3, df4], axis = 1, ignore_index = True)</code> nos regresa:

 |   | nombre | apellido | edad | profesion |
|---|--------|----------|------|-----------|
| 0 | Don    | Cangrejo | 44   | Manager   |
| 1 | Bob    | Espona   | 28   | Chef      |




## **Parte 3: resolver conflictos con emails**

Imagina que tienes que utilizar los emails de varias personas que trabajan en tu companya. Lamentablemente al no tener un sistema unificado, estan esparcidos por varios dominios. 

Sin embargo sabes que siempre son generados con `"xxxxxxx@dominio.yyy"`. Donde `x` puede ser numero, letra, punto o guion; mientras que `yyy` es un dominio valido como "com" o "es"  

Deberas desechar cualquier que no contenga el dominio, no trates de arreglar el email, pues no sabemos la razon del error. **Sin embargo, los emails que no tengan problemas en el dominio pueden ser rescatados**.  

Desecha si el dominio esta mal, arregla si el usuario antes del `@` esta bien.

In [2]:
# Generamos datos de prueba
nombres = ["Juan", "María", "Pedro", "Ana", "Luis", "Sara"]
apellidos = ["Pérez", "Gómez", "García", "Fernández", "Rodríguez", "González"]
dominios = ["gmail.com", "yahoo.com", "hotmail.com", "outlook.com", "yahoo.es"]
emails = []

# Generamos todas las combinaciones posibles entre nombres y apellidos
combinaciones = list(itertools.product(nombres, apellidos))
_df = []
random.seed(123543)
for i in range(100):
    # Seleccionamos una combinación de nombres y apellidos al azar
    nombre, apellido = random.choice(combinaciones)
    persona = f'{nombre} {apellido}'
    dominio = random.choice(dominios)
    email = f"{nombre.lower()}.{apellido.lower()}@{dominio}"
    if random.random() > .9:
        email = f"{nombre.lower()}{i}{apellido.lower()}@{persona}"
    elif random.random() < 0.3:
        email = f"{nombre.lower()}{apellido.lower()}@{persona}"
    _df.append(pd.DataFrame({"persona":[persona], "email": [email]}))

df = pd.concat(_df, ignore_index=True)
df.to_csv("clientes.csv", index=False)
df.head(20)

Unnamed: 0,persona,email
0,Ana Gómez,ana.gómez@yahoo.com
1,Luis Pérez,luis.pérez@gmail.com
2,Pedro García,pedrogarcía@Pedro García
3,Luis Gómez,luis.gómez@hotmail.com
4,Sara García,sara.garcía@outlook.com
5,María González,maría5gonzález@María González
6,María Fernández,maría6fernández@María Fernández
7,Juan García,juan.garcía@hotmail.com
8,Sara Gómez,sara8gómez@Sara Gómez
9,Sara Fernández,sara.fernández@gmail.com


Podemos ver que varios correos tienen domiios no permitidos. 

La siguiente línea de código es una operación que se aplica sobre la columna `"email"` de un DataFrame llamado df, usando el método `apply()`. La operación se realiza en cada celda de la columna y utiliza una función `lambda`.

La función lambda toma cada valor x de la columna "email", lo convierte a una cadena de texto utilizando `str(x)`, y luego utiliza la función `re.findall()` para buscar todas las ocurrencias de la expresión regular regex_email en la cadena. La función `re.findall()` devuelve una lista con todas las ocurrencias encontradas en la cadena.

La expresión regular regex_email que se utiliza aquí es la que explicamos anteriormente y se utiliza para validar correos electrónicos.

Luego, se verifica si la lista de ocurrencias es mayor a cero, utilizando `len(re.findall(regex_email, str(x))) > 0`. Si esto es cierto, se toma el primer valor de la lista, utilizando `[0]`. Si no hay ocurrencias, se devuelve una cadena vacía, utilizando `else ""`.

En resumen, esta línea de código utiliza la expresión regular regex_email para validar los correos electrónicos en la columna "email" del DataFrame `df`. Si un correo electrónico es válido, se devuelve el correo electrónico como una cadena de texto. Si el correo electrónico no es válido, se devuelve una cadena vacía.

In [3]:

# Leemos los datos
df = pd.read_csv("clientes.csv")

# Definimos la expresión regular para identificar direcciones de correo electrónico válidas
regex_email = r"[a-zA-Z0-9._%+-]+@[a-zA-Z0-9.-]+\.[a-zA-Z]{2,}"

# Limpiamos la columna "email" utilizando la expresión regular
df["email"] = df["email"].apply(lambda x: re.findall(regex_email, str(x))[0] if len(re.findall(regex_email, str(x))) > 0 else "")

# Eliminamos los registros que no tienen una dirección de correo electrónico válida
df = df[df["email"] != ""]

# Guardamos los datos limpios
df
#df.to_csv("clientes_limpios.csv", index=False)

Unnamed: 0,persona,email
0,Ana Gómez,mez@yahoo.com
1,Luis Pérez,rez@gmail.com
3,Luis Gómez,mez@hotmail.com
4,Sara García,a@outlook.com
7,Juan García,a@hotmail.com
...,...,...
94,Pedro Gómez,mez@outlook.com
95,Luis Gómez,mez@hotmail.com
96,Juan Gómez,mez@hotmail.com
98,Ana Gómez,mez@hotmail.com


Podemos ver que hay un error en el regex, ya que está tomando como error de forma clara el uso de acentos. Para eso, modificamos el regex agregando a "xxxxx" en la búsqueda la siguiente línea de código: 
 - <code>\u00C0-\u017F</code>
 
Esto nos permite incluir letras con acentos.

Probemos:

In [4]:

# Leemos los datos
df = pd.read_csv("clientes.csv")

# Definimos la expresión regular para identificar direcciones de correo electrónico válidas
regex_email = r"[a-zA-Z\u00C0-\u017F0-9._%+-]+@[a-zA-Z0-9.-]+\.[a-zA-Z]{2,}"

# Limpiamos la columna "email" utilizando la expresión regular
df["email"] = df["email"].apply(lambda x: re.findall(regex_email, str(x))[0] if len(re.findall(regex_email, str(x))) > 0 else "")

# Eliminamos los registros que no tienen una dirección de correo electrónico válida
df = df[df["email"] != ""]

# Guardamos los datos limpios
df
#df.to_csv("clientes_limpios.csv", index=False)

Unnamed: 0,persona,email
0,Ana Gómez,ana.gómez@yahoo.com
1,Luis Pérez,luis.pérez@gmail.com
3,Luis Gómez,luis.gómez@hotmail.com
4,Sara García,sara.garcía@outlook.com
7,Juan García,juan.garcía@hotmail.com
...,...,...
94,Pedro Gómez,pedro.gómez@outlook.com
95,Luis Gómez,luis.gómez@hotmail.com
96,Juan Gómez,juan.gómez@hotmail.com
98,Ana Gómez,ana.gómez@hotmail.com


Comprobemos que los mails no tienen problemas, y se filtran de forma correcta

In [5]:
# Buscar todos los valores de la columna email

df.email.unique()

array(['ana.gómez@yahoo.com', 'luis.pérez@gmail.com',
       'luis.gómez@hotmail.com', 'sara.garcía@outlook.com',
       'juan.garcía@hotmail.com', 'sara.fernández@gmail.com',
       'sara.fernández@outlook.com', 'sara.rodríguez@outlook.com',
       'luis.pérez@yahoo.es', 'pedro.fernández@hotmail.com',
       'sara.gómez@yahoo.com', 'juan.fernández@yahoo.es',
       'ana.gonzález@yahoo.com', 'sara.gonzález@hotmail.com',
       'luis.gonzález@hotmail.com', 'juan.rodríguez@yahoo.com',
       'pedro.pérez@outlook.com', 'luis.rodríguez@yahoo.com',
       'luis.garcía@outlook.com', 'pedro.gómez@yahoo.es',
       'maría.garcía@yahoo.com', 'luis.gómez@yahoo.com',
       'maría.pérez@yahoo.es', 'maría.gómez@gmail.com',
       'luis.fernández@hotmail.com', 'pedro.garcía@yahoo.es',
       'sara.pérez@yahoo.com', 'pedro.gómez@gmail.com',
       'sara.gonzález@gmail.com', 'maría.garcía@gmail.com',
       'maría.pérez@gmail.com', 'juan.pérez@hotmail.com',
       'ana.garcía@yahoo.es', 'pedro.fernán

In [6]:
# Vemos qué tantos mails no tuvieron conflicto

len(df)

65

Podemos ver que, ya filtrados los datos de forma correcta con expresiones regulares, ya conseguimos los correos que no tienen problemas en dominio. Al ser la probabilidad de error un 30%, hace mucho sentido que sean 65 los correos que no tuvieron problemas de un total de 100 generados (podemos verlo en el range usado).

> **Conclusión**: es importante incluir caracteres especiales en nuestras búsquedas de regex, y buscar bien cómo expresarlas dentro de la línea de código.