Ejercicio 5. Expresiones regulares.

Dado el siguiente Diccionario:

In [4]:
import pandas as pd
import numpy as np

In [5]:
data = {
    'Name': [
        'Dave', 'Steve', 'Rob', 'Ryan', 'Alice', 'Eve', 'John', 'Jane', 'Peter', 'Mary', 'Tom', 'Lucy', 
        'Mike', 'Chris', 'Emma', 'Olivia', 'Sophia', 'Liam', 'Noah', 'Mason', 'Ava', 'Mia', 'James', 'Benjamin'
    ],
    'Email': [
        'dave@google.com', 'steve@gmail.com', 'rob@yahoo.com', 'ryan@gmail.com', 
        'alice@hotmail.com', 'eve@google.com', 'john@outlook.com', 'jane@gmail.com',
        'peter@amazon.com', 'mary@google.com', 'tom@apple.com', 'lucy@yahoo.com',
        'mike@facebook.com', 'chris@netflix.com', 'emma@google.com', 'olivia@gmail.com',
        'sophia@amazon.com', 'liam@apple.com', 'noah@google.com', 'mason@yahoo.com',
        'ava@outlook.com', 'mia@gmail.com', 'james@hotmail.com', 'benjamin@google.com'
    ]
}

In [6]:
df = pd.DataFrame(data)
df

Unnamed: 0,Name,Email
0,Dave,dave@google.com
1,Steve,steve@gmail.com
2,Rob,rob@yahoo.com
3,Ryan,ryan@gmail.com
4,Alice,alice@hotmail.com
5,Eve,eve@google.com
6,John,john@outlook.com
7,Jane,jane@gmail.com
8,Peter,peter@amazon.com
9,Mary,mary@google.com


Una vez pasado el diccionario a un DataFrame que contiene nombres y direcciones de correo electrónico, realiza las siguientes tareas:

- Extrae los dominios de los correos electrónicos.
- Cuenta la frecuencia de cada dominio.
- Crea un nuevo DataFrame que contenga cada dominio como columna y el número de veces que se repiten dichos dominios en las filas.
- Resolver de las dos formas: Usando expresiones regulares y usando los métodos propios de pandas.

## Solución con expresiones regulares

In [21]:
# Se Extre el dominio con expresiones regulares
df['Domain'] = df['Email'].str.extract(r'@(.+)$')  
df['Domain']

0       google.com
1        gmail.com
2        yahoo.com
3        gmail.com
4      hotmail.com
5       google.com
6      outlook.com
7        gmail.com
8       amazon.com
9       google.com
10       apple.com
11       yahoo.com
12    facebook.com
13     netflix.com
14      google.com
15       gmail.com
16      amazon.com
17       apple.com
18      google.com
19       yahoo.com
20     outlook.com
21       gmail.com
22     hotmail.com
23      google.com
Name: Domain, dtype: object

- df['Email'].str.extract(r'@(.+)$'):
- df['Email']: Esto accede a la columna “Email” en el DataFrame df.
- .str: Esto convierte la columna en una serie de objetos de tipo cadena (string).
- .extract(r'@(.+)$'): Utiliza una expresión regular para extraer el dominio de cada dirección de correo electrónico.
- r'@(.+)$': Esta expresión regular busca el símbolo “@” en la cadena y captura todo lo que sigue después de él hasta el final de la cadena.


In [8]:
# Contar la frecuencia de cada dominio
domain_counts =  df['Domain'].value_counts()
domain_counts


Domain
google.com      6
gmail.com       5
yahoo.com       3
hotmail.com     2
outlook.com     2
amazon.com      2
apple.com       2
facebook.com    1
netflix.com     1
Name: count, dtype: int64

- df['Domain']: Esto accede a la columna “Domain” en el DataFrame df. Recordemos que previamente habíamos creado esta columna al extraer los dominios de las direcciones de correo electrónico.
- .value_counts(): Este método cuenta cuántas veces aparece cada valor único en la columna “Domain”. En otras palabras, nos proporciona la frecuencia de cada dominio en la lista de direcciones de correo electrónico

- Crea un nuevo DataFrame que contenga cada dominio como columna y el número de veces que se repiten dichos dominios en las filas.

In [14]:
# DataFrame con los dominios y sus frecuencias
domain_df = pd.DataFrame({
    'Domain': ['google.com', 'gmail.com', 'yahoo.com', 'hotmail.com', 'outlook.com'],
    'Frequency': [2, 2, 1, 1, 1]
})

# Transponer el DataFrame para que los dominios sean columnas
domain_counts_df = domain_df.set_index('Domain').T

print(domain_counts_df)

Domain     google.com  gmail.com  yahoo.com  hotmail.com  outlook.com
Frequency           2          2          1            1            1


- domain_df.set_index('Domain'): Esto establece la columna “Domain” como el índice del DataFrame domain_df. En otras palabras, ahora podemos acceder a las filas utilizando los dominios como etiquetas de fila.
- .T: Este es el operador de transposición. Al aplicarlo al DataFrame, intercambia las filas por columnas y viceversa. Por lo tanto, ahora los dominios se convierten en columnas y las frecuencias se convierten en filas.
El resultado de domain_df.set_index('Domain').T es un nuevo DataFrame donde los dominios son columnas y las frecuencias están en las filas

## Solución con los métodos propios de Pandas

In [22]:
# Extraer los dominios utilizando el método apply con una función lambda
df['Domain'] = df['Email'].apply(lambda x: x.split('@')[1])
print(df[['Name', 'Email', 'Domain']])


        Name                Email        Domain
0       Dave      dave@google.com    google.com
1      Steve      steve@gmail.com     gmail.com
2        Rob        rob@yahoo.com     yahoo.com
3       Ryan       ryan@gmail.com     gmail.com
4      Alice    alice@hotmail.com   hotmail.com
5        Eve       eve@google.com    google.com
6       John     john@outlook.com   outlook.com
7       Jane       jane@gmail.com     gmail.com
8      Peter     peter@amazon.com    amazon.com
9       Mary      mary@google.com    google.com
10       Tom        tom@apple.com     apple.com
11      Lucy       lucy@yahoo.com     yahoo.com
12      Mike    mike@facebook.com  facebook.com
13     Chris    chris@netflix.com   netflix.com
14      Emma      emma@google.com    google.com
15    Olivia     olivia@gmail.com     gmail.com
16    Sophia    sophia@amazon.com    amazon.com
17      Liam       liam@apple.com     apple.com
18      Noah      noah@google.com    google.com
19     Mason      mason@yahoo.com     ya

In [23]:
# Contar la frecuencia de cada dominio
domain_counts = df['Domain'].value_counts()
domain_counts

Domain
google.com      6
gmail.com       5
yahoo.com       3
hotmail.com     2
outlook.com     2
amazon.com      2
apple.com       2
facebook.com    1
netflix.com     1
Name: count, dtype: int64

In [33]:
data_dict = {'Dominio': ['google.com', 'yahoo.com', 'bing.com'],
             'Repeticiones': [10, 5, 8]}

df = pd.DataFrame(data_dict)

# Transponer el DataFrame y establecer los dominios como índice
df_transpuesto = df.T
df_transpuesto.columns = df_transpuesto.iloc[0]
df_transpuesto = df_transpuesto[1:]
df_transpuesto

Dominio,google.com,yahoo.com,bing.com
Repeticiones,10,5,8


Creación del DataFrame original:
- Primero, creamos un diccionario llamado data_dict con dos claves: ‘Dominio’ y ‘Repeticiones’.
- La clave ‘Dominio’ tiene una lista de nombres de dominio: ['google.com', 'yahoo.com', 'bing.com'].
- La clave ‘Repeticiones’ tiene una lista de números: [10, 5, 8].
- Luego, utilizamos pd.DataFrame(data_dict) para crear un DataFrame a partir de este diccionario.

Transponer el DataFrame:
-Después de crear el DataFrame, aplicamos la operación de transposición utilizando .T.
- Esto intercambia las filas con las columnas, de modo que los dominios ahora se convierten en columnas y las repeticiones en filas.

Eliminar la primera fila de índices:
- Por defecto, pandas agrega índices numéricos (0, 1, 2) como la primera fila después de la transposición.
- Para eliminar esta fila, establecemos los nombres de columna del DataFrame transpuesto como los valores de la primera fila (df_transpuesto.columns = df_transpuesto.iloc[0]).
- Luego, excluimos la primera fila utilizando df_transpuesto = df_transpuesto[1:].