# Análisis exploratorio de datos

## Unidad 4: Detección y gestión de datos nulos y atípicos

**Índice**   
1. [Detección de valores nulos](#id1)
2. [Gestión de valores nulos según su tipo](#id2)
3. [Detección de valores atípicos](#id3)
4. [Corrección de valores atípicos](#id4)

### 1. Detección de valores nulos <a name="id1"></a>

La detección y gestión de datos nulos son tareas importantes en el preprocesamiento de datos.

Los **datos nulos**, también conocidos como valores faltantes o valores perdidos, son registros que no tienen un valor asignado en una o más variables. Es decir, representan la ausencia de datos para ciertas observaciones o atributos en un conjunto de datos. En Python, los datos nulos se representan con un elemento **NaN** (not a number).

Los datos nulos pueden surgir por diversas razones, como errores en la recopilación de datos, fallos en la entrada de datos, la falta de respuesta por parte de los participantes en un estudio, o simplemente porque la información no estaba disponible en el momento de la recopilación. La presencia de datos nulos puede afectar la calidad de los análisis de datos y modelos predictivos si no se tratan adecuadamente.

Vamos a utilizar el dataset de la unidad anterior, para continuar trabajando en su preproceso.

In [15]:
# Montamos la unidad Drive para acceder a los archivos de Google Drive
from google.colab import drive
drive.mount('/content/drive')

# Especificamos la ruta hasta la carpeta donde tenemos los archivos de la Unidad 3-4
%cd /content/drive/MyDrive/Colab_Notebooks/Analisis_exploratorio_datos/Unidad3_4

Drive already mounted at /content/drive; to attempt to forcibly remount, call drive.mount("/content/drive", force_remount=True).
/content/drive/MyDrive/Colab_Notebooks/Analisis_exploratorio_datos/Unidad3_4


In [16]:
#a)

# Importamos las librerías necesarias
import pandas as pd
import numpy as np

# Cargamos el archivo csv en un DataFrame
got_df = pd.read_csv("data/Game_of_Thrones_2.csv")

# Mostramos el tamaño del df
print("Tamaño df:\n", got_df.shape)

# Mostramos el nombre de las columnas
print("Columnas del df:\n", got_df.columns)

# Visualizamos las 3 primeras filas con el comando head()
got_df.head(3)

Tamaño df:
 (73, 20)
Columnas del df:
 Index(['Season', 'No. of Episode (Season)', 'No. of Episode (Overall)',
       'Title of the Episode', 'Running Time (Minutes)', 'Directed by',
       'Written by', 'Original Air Date', 'U.S. Viewers (Millions)',
       'Music by', 'Cinematography by', 'Editing by', 'IMDb Rating',
       'Rotten Tomatoes Rating (Percentage)', 'Metacritic Ratings', 'Ordered',
       'Filming Duration', 'Novel(s) Adapted', 'Synopsis', 'Ordered_date'],
      dtype='object')


Unnamed: 0,Season,No. of Episode (Season),No. of Episode (Overall),Title of the Episode,Running Time (Minutes),Directed by,Written by,Original Air Date,U.S. Viewers (Millions),Music by,Cinematography by,Editing by,IMDb Rating,Rotten Tomatoes Rating (Percentage),Metacritic Ratings,Ordered,Filming Duration,Novel(s) Adapted,Synopsis,Ordered_date
0,1,1,1.0,Winter Is Coming,61,Tim Van Patten,"David Benioff, D. B. Weiss",17-Apr-2011,2.22,Ramin Djawadi,Alik Sakharov,Oral Norrie Ottey,8.9,100.0,9.1,"March 2, 2010",Second half of 2010,A Game of Thrones,"North of the Seven Kingdoms of Westeros, Night...",2010-03-02
1,1,2,2.0,The Kingsroad,55,Tim Van Patten,"David Benioff, D. B. Weiss",24-Apr-2011,2.2,Ramin Djawadi,Alik Sakharov,Oral Norrie Ottey,8.6,100.0,8.9,"March 2, 2010",Second half of 2010,A Game of Thrones,"Ned, the new Hand of the King, travels to King...",2010-03-02
2,1,3,3.0,Lord Snow,57,Brian Kirk,"David Benioff, D. B. Weiss",1-May-2011,2.44,Ramin Djawadi,Marco Pontecorvo,Frances Parker,8.5,81.0,8.7,"March 2, 2010",Second half of 2010,A Game of Thrones,Ned attends the King's Small Council and learn...,2010-03-02


Durante el análisis descriptivo ya identificamos algunos datos nulos/missings.

In [17]:
got_df.isna().sum()

Unnamed: 0,0
Season,0
No. of Episode (Season),0
No. of Episode (Overall),1
Title of the Episode,1
Running Time (Minutes),0
Directed by,0
Written by,0
Original Air Date,0
U.S. Viewers (Millions),0
Music by,0


Podemos ver que tenemos NaNs en 4 columnas:
- Numéricas: No. of Episode (Overall) y Rotten Tomatoes Rating (Percentage).
- Texto: Title of the Episode y Novel(s) Adapted.

Según el tipo de datos y la información que contiene, el valor nulo se tratará de manera diferente.

### 2. Gestión de valores nulos según su tipo <a name="id2"></a>

La gestión de valores nulos en un conjunto de datos depende del tipo de datos y de la información que representan. Sin embargo, hay estrategias comunes para tratarlos:

1. **Datos numéricos:**
   - **Eliminación de filas/columnas:** Si la cantidad de valores nulos es pequeña y no afecta significativamente el conjunto de datos, se pueden eliminar las filas o columnas correspondientes.
   - **Imputación:** Para datos numéricos, una opción común es imputar (rellenar) los valores nulos con estadísticas descriptivas como la media, mediana o moda. Esto ayuda a mantener la distribución de los datos.

2. **Datos categóricos:**
   - **Eliminación o imputación:** Similar a los datos numéricos, se pueden eliminar las filas/columnas con valores nulos o imputar los valores utilizando la moda (valor más frecuente) en el caso de variables categóricas.

3. **Datos de texto o cadenas de caracteres:**
   - **Eliminación o imputación:** Al igual que con datos categóricos, se puede eliminar o imputar utilizando el valor más frecuente (moda) para mantener la coherencia en los datos.

4. **Datos temporales:**
   - **Interpolación o extrapolación:** En el caso de datos temporales, se puede utilizar la interpolación (para llenar los valores entre los existentes) o la extrapolación (para prever valores más allá del rango conocido) si tiene sentido en el contexto de los datos.

5. **Datos booleanos (binarios):**
   - **Imputación o asignación:** Si es apropiado, se pueden imputar con la moda o asignar un valor específico (0 o 1) según la frecuencia de ocurrencia de cada clase.

Es importante elegir la estrategia de gestión de valores nulos según el contexto y la naturaleza de los datos. Además, se debe documentar cualquier manipulación realizada para garantizar la transparencia y la reproducibilidad en el análisis de datos.

In [18]:
# Primero de todo, nos vamos a centrar en las variables numéricas
# Teníamos NaNs en No. of Episode (Overall) y Rotten Tomatoes Rating (Percentage).

# Vamos a mirar la 1a variable: No. of Episode (Overall)

got_df["No. of Episode (Overall)"]

Unnamed: 0,No. of Episode (Overall)
0,1.0
1,2.0
2,3.0
3,4.0
4,5.0
...,...
68,69.0
69,70.0
70,71.0
71,72.0


In [19]:
# Mostramos la fila con el NaN
got_df[got_df["No. of Episode (Overall)"].isna()]

Unnamed: 0,Season,No. of Episode (Season),No. of Episode (Overall),Title of the Episode,Running Time (Minutes),Directed by,Written by,Original Air Date,U.S. Viewers (Millions),Music by,Cinematography by,Editing by,IMDb Rating,Rotten Tomatoes Rating (Percentage),Metacritic Ratings,Ordered,Filming Duration,Novel(s) Adapted,Synopsis,Ordered_date
50,six,1,,The Red Woman,50,Jeremy Podeswa,"David Benioff, D. B. Weiss",24-Apr-2016,7.94,Ramin Djawadi,Gregory Middleton,Crispin Green,8.4,86.0,6.4,"April 8, 2014",July–December 2015,,Alliser Thorne assumes command of the Night's ...,2010-03-02


In [20]:
# Nos fijamos que van de 1-N (Número de episodios)
# Por lo tanto, podemos sustituir el NaN por el índice de fila + 1

# Nos quedamos con el índice
idx = got_df[got_df["No. of Episode (Overall)"].isna()].index[0]

# Rellenamos el NaN con el valor del índice + 1
# Especificamos el inplace = True
got_df["No. of Episode (Overall)"].fillna(idx+1, inplace=True)

In [21]:
# Comprobamos que ya no hay NaNs
print("Número de NaNs: ", got_df["No. of Episode (Overall)"].isna().sum())

# Vemos que quadra con los valores anteriores/posteriores
got_df.loc[idx-1:idx+1]

Número de NaNs:  0


Unnamed: 0,Season,No. of Episode (Season),No. of Episode (Overall),Title of the Episode,Running Time (Minutes),Directed by,Written by,Original Air Date,U.S. Viewers (Millions),Music by,Cinematography by,Editing by,IMDb Rating,Rotten Tomatoes Rating (Percentage),Metacritic Ratings,Ordered,Filming Duration,Novel(s) Adapted,Synopsis,Ordered_date
49,5,10,50.0,Mother's Mercy,60,David Nutter,"David Benioff, D. B. Weiss",14-Jun-2015,8.11,Ramin Djawadi,Robert McLachlan,Tim Porter,9.1,92.0,8.3,"April 8, 2014",July–December 2014,"A Feast for Crows, A Dance with Dragons and or...","Selyse, now distraught over Shireen's death, h...",2010-03-02
50,six,1,51.0,The Red Woman,50,Jeremy Podeswa,"David Benioff, D. B. Weiss",24-Apr-2016,7.94,Ramin Djawadi,Gregory Middleton,Crispin Green,8.4,86.0,6.4,"April 8, 2014",July–December 2015,,Alliser Thorne assumes command of the Night's ...,2010-03-02
51,six,2,52.0,Home,53,Jeremy Podeswa,Dave Hill,1-May-2016,7.29,Ramin Djawadi,Gregory Middleton,Crispin Green,9.3,88.0,6.2,"April 8, 2014",July–December 2015,Outline from The Winds of Winter and original ...,"In a vision of the past, Brandon sees his fath...",2010-03-02


In [22]:
# Ahora nos fijamos en la segunda variable: Rotten Tomatoes Rating (Percentage)
# Es una variable numérica en forma de porcentaje
got_df["Rotten Tomatoes Rating (Percentage)"].describe()

Unnamed: 0,Rotten Tomatoes Rating (Percentage)
count,72.0
mean,91.861111
std,11.540871
min,47.0
25%,88.75
50%,96.0
75%,100.0
max,100.0


In [23]:
# Mostramos la fila con el NaN
got_df[got_df["Rotten Tomatoes Rating (Percentage)"].isna()]

Unnamed: 0,Season,No. of Episode (Season),No. of Episode (Overall),Title of the Episode,Running Time (Minutes),Directed by,Written by,Original Air Date,U.S. Viewers (Millions),Music by,Cinematography by,Editing by,IMDb Rating,Rotten Tomatoes Rating (Percentage),Metacritic Ratings,Ordered,Filming Duration,Novel(s) Adapted,Synopsis,Ordered_date
17,2,8,18.0,The Prince of Winterfell,53,Alan Taylor,"David Benioff, D. B. Weiss",20-May-2012,3.86,Ramin Djawadi,Jonathan Freeman,Frances Parker,8.6,,8.8,"April 19, 2011",Second half of 2011,A Clash of Kings,Robb learns that Catelyn secretly freed Jaime ...,2010-03-02


In [24]:
# En este caso, podemos sustituir el NaN por la media, de modo que no influya a la distribución

# Calculamos la media de la columna
media_perc = got_df["Rotten Tomatoes Rating (Percentage)"].mean()

# Rellenamos el NaN con el valor de la media
# Especificamos el inplace = True
got_df["Rotten Tomatoes Rating (Percentage)"].fillna(media_perc, inplace=True)

The behavior will change in pandas 3.0. This inplace method will never work because the intermediate object on which we are setting values always behaves as a copy.

For example, when doing 'df[col].method(value, inplace=True)', try using 'df.method({col: value}, inplace=True)' or df[col] = df[col].method(value) instead, to perform the operation inplace on the original object.


  got_df["Rotten Tomatoes Rating (Percentage)"].fillna(media_perc, inplace=True)


In [25]:
# Comprobamos que ya no hay NaNs
print("Número de NaNs: ", got_df["Rotten Tomatoes Rating (Percentage)"].isna().sum())

Número de NaNs:  0


In [26]:
# Ahora vamos a centrarnos en las variables de tipo texto
#Title of the Episode y Novel(s) Adapted

# Miramos primero Title of the Episode
got_df["Title of the Episode"]

Unnamed: 0,Title of the Episode
0,Winter Is Coming
1,The Kingsroad
2,Lord Snow
3,"Cripples, Bastards, and Broken Things"
4,The Wolf and the Lion
...,...
68,A Knight of the Seven Kingdoms
69,The Long Night
70,The Last of the Starks
71,The Bells


In [27]:
# Mostramos la fila con el NaN
got_df[got_df["Title of the Episode"].isna()]

Unnamed: 0,Season,No. of Episode (Season),No. of Episode (Overall),Title of the Episode,Running Time (Minutes),Directed by,Written by,Original Air Date,U.S. Viewers (Millions),Music by,Cinematography by,Editing by,IMDb Rating,Rotten Tomatoes Rating (Percentage),Metacritic Ratings,Ordered,Filming Duration,Novel(s) Adapted,Synopsis,Ordered_date
10,2,1,11.0,,52,Alan Taylor,"David Benioff, D. B. Weiss",1-Apr-2012,3.86,Ramin Djawadi,Kramer Morgenthau,Frances Parker,8.6,100.0,8.9,"April 19, 2011",Second half of 2011,A Clash of Kings,"In King's Landing, Tyrion becomes acting Hand ...",2010-03-02


No podemos sustituir el NaN por el valor más frequente porque los títulos son todos diferentes.
En este caso, solo hay 2 opciones:
- Se elimina la fila.
- Se obtiene la información de algún otro sitio.

In [28]:
# Como solo hay 72 filas, decidimos buscar el nombre del episodio

# Nos quedamos con el número del episodio
n_episodio = got_df[got_df["Title of the Episode"].isna()]['No. of Episode (Overall)'].values[0]

# Mostramos la información por pantalla
print(f"El episodio con un NaN en el título es el {n_episodio}.")

El episodio con un NaN en el título es el 11.0.


In [29]:
# Buscamos el nombre del episodio
nombre_episodio = 'The North Remembers'

# Rellenamos el NaN con el título que hemos encontrado
# Especificamos el inplace = True
got_df["Title of the Episode"].fillna(nombre_episodio, inplace=True)

In [30]:
# Comprobamos que ya no hay NaNs
print("Número de NaNs: ", got_df["Title of the Episode"].isna().sum())

Número de NaNs:  0


In [31]:
# Corregimos ahora Novel(s) Adapted

# Vemos que se refiere al nombre de los libros
got_df["Novel(s) Adapted"].unique()

array(['A Game of Thrones', 'A Clash of Kings', 'A Storm of Swords',
       'A Feast for Crows, A Dance with Dragons and original content',
       nan, 'Outline from The Winds of Winter and original content',
       'Outline from A Dream of Spring and original content'],
      dtype=object)

In [32]:
# Podemos mirar qué libro es (con la temporada)
# Y poner ese valor
got_df[got_df["Novel(s) Adapted"].isna()]

Unnamed: 0,Season,No. of Episode (Season),No. of Episode (Overall),Title of the Episode,Running Time (Minutes),Directed by,Written by,Original Air Date,U.S. Viewers (Millions),Music by,Cinematography by,Editing by,IMDb Rating,Rotten Tomatoes Rating (Percentage),Metacritic Ratings,Ordered,Filming Duration,Novel(s) Adapted,Synopsis,Ordered_date
50,six,1,51.0,The Red Woman,50,Jeremy Podeswa,"David Benioff, D. B. Weiss",24-Apr-2016,7.94,Ramin Djawadi,Gregory Middleton,Crispin Green,8.4,86.0,6.4,"April 8, 2014",July–December 2015,,Alliser Thorne assumes command of the Night's ...,2010-03-02


In [33]:
# Nos quedamos con el número de temporada
n_season = got_df[got_df["Novel(s) Adapted"].isna()]['Season'].values[0]

# Filtramos por la sexta temporada
got6_df = got_df[got_df['Season']==n_season]

# Vemos que se refiere a The Winds of Winter
print("Los valores únicos de la columna Novel(s) Adapted son:\n",
      got6_df["Novel(s) Adapted"].unique())

# Usamos la moda para encontrar el valor que se repite más
freq_lib = got6_df['Novel(s) Adapted'].mode()[0]

print("El valor que se repite más es: ", freq_lib)

# Sustituímos el NaN por freq_lib
got_df["Novel(s) Adapted"].fillna(freq_lib, inplace=True)

Los valores únicos de la columna Novel(s) Adapted son:
 [nan 'Outline from The Winds of Winter and original content']
El valor que se repite más es:  Outline from The Winds of Winter and original content


The behavior will change in pandas 3.0. This inplace method will never work because the intermediate object on which we are setting values always behaves as a copy.

For example, when doing 'df[col].method(value, inplace=True)', try using 'df.method({col: value}, inplace=True)' or df[col] = df[col].method(value) instead, to perform the operation inplace on the original object.


  got_df["Novel(s) Adapted"].fillna(freq_lib, inplace=True)


In [34]:
# Comprobamos que ya no hay NaNs
print("Número de NaNs: ", got_df["Novel(s) Adapted"].isna().sum())

Número de NaNs:  0


### 3. Detección de valores atípicos <a name="id3"></a>


Un outlier, o valor atípico, es una observación que se desvía significativamente de los demás elementos en un conjunto de datos.

Es importante tratar los outliers de manera cuidadosa, ya que pueden afectar negativamente la validez de los análisis estadísticos y la precisión de los modelos predictivos. En algunos casos, los outliers pueden indicar problemas en la recopilación de datos, pero en otros, pueden contener información relevante sobre patrones inusuales o eventos excepcionales.

Se pueden detectar los valores atípicos de distintas maneras:

**Visualización de datos**

- Gráficos de dispersión (scatter plots): Representar los datos en gráficos de dispersión puede ayudar a identificar patrones visuales inusuales o puntos aislados.
- Boxplots (diagramas de caja): Los boxplots proporcionan una representación gráfica de la distribución de los datos, facilitando la identificación de valores atípicos que caen fuera de los "bigotes" del diagrama.

**Estadísticas descriptivas**

- Estadísticos básicos: Calcular los estadísticos básicos (media/mediana, valor máximo/mínimo y desviación estándard) permite identificar valores fuera del rango esperado.
- Rango intercuartílico (IQR): Calcular el rango intercuartílico (la diferencia entre el tercer cuartil y el primer cuartil) y usarlo para identificar valores atípicos que caen fuera de un rango específico.

En la anterior unidad usamos los estadísticos descriptivos para detectar valores anómalos en las variables.

- El máximo de No. of Episode (Overall) era 5k.

- El mínimo de Rotten Tomatoes Rating (Percentage) era -35%.

Una vez encontrados, hay diferentes formas de corregirlos.

### 4. Corrección de valores atípicos <a name="id4"></a>

Para corregir valores atípicos se usan las mismas técnicas que con los valores nulos (NaNs). Dependiendo del tipo de la variable y de su función, se puede reemplazar el valor anómalo por la media o el valor más frecuente, se puede encontrar el valor basándose en los datos de otras columnas o, si no hay más opción, se puede eliminar directamente la fila o la columna.

Los valores numéricos ya los hemos corregido en el apartado anterior. En esta sección vamos a centrarnos en las variables en forma de texto.

In [35]:
# Volvemos a mirar las columnas con valores anómalos
# En este caso teníamos Season y Filming Duration

In [36]:
# En la columna Season, six está como texto, debería ser 6
print("Los valores únicos de Season son:\n", got_df['Season'].unique())

Los valores únicos de Season son:
 ['1' '2' '3' '4' '5' 'six' '7' '8']


In [37]:
# Los valores son strings, y hay alguno mal codificado (six)
# Tenemos que arreglarlo

# Primero tenemos que cambiar 'six' por '6'
# Vamos a usar la función replace
got_df['Season'] = got_df['Season'].replace('six', '6')

# Mostramos los nuevos valores únicos
print("Los valores únicos de Season corregidos son:\n", got_df['Season'].unique())

Los valores únicos de Season corregidos son:
 ['1' '2' '3' '4' '5' '6' '7' '8']


In [38]:
# Ahora que ya tenemos los valores codificados con el nombre correcto
# Vamos a cambiar el tipo de variable de string a int

# Para hacerlo, usamos astype()
got_df['Season'] = got_df['Season'].astype(int)

# Vamos a comprobar el nuevo tipo de la columna con dtype
print("El tipo de la columna Season es:\n", type(got_df['Season'].dtypes))

El tipo de la columna Season es:
 <class 'numpy.dtypes.Int64DType'>


In [39]:
# Por otro lado, también vimos que Filming Duration era un object
# Vamos a ver sus valores
print("Los valores únicos de Filming Duration son:\n", got_df['Filming Duration'].unique())

Los valores únicos de Filming Duration son:
 ['Second half of 2010' 'Second half of 2011' 'July–November 2012'
 'July–November 2013' 'July–December 2014' 'July–December 2015'
 'August 2016 – February 2017' 'October 2017 – July 2018']


Para trabajar con estos datos, vamos a usar **expresiones regulares**.

Las expresiones regulares (también conocidas como regex o regexp) son patrones de búsqueda y manipulación de cadenas de texto. Permiten realizar búsquedas complejas y operaciones de manipulación de texto basadas en patrones específicos. En Python, el módulo `re` proporciona funciones para trabajar con expresiones regulares.

Primero de todo, es importante definir el patrón de la expresión regular, una cadena de texto que contiene caracteres literales y metacaracteres con significados especiales. Este patrón indica, por ejemplo, qué tipo de texto queremos buscar, por ejemplo, solo los caracteres numéricos.

- \d o [0-9] indican cualquier dígito decimal.
- \D o [^0-9] indican cualquier carácter que no es un dígito.
- \w o [a-zA-Z0-9_] indican cualquier carácter alfanumérico.
- \W o [^a-zA-Z0-9_] indican cualquier carácter no alfanumérico.

Las funciones más usadas del módulo son:

- re.search: Busca la primera coincidencia del patrón en la cadena y devuelve un objeto Match si se encuentra.
- re.match: Comprueba si el patrón coincide al principio de la cadena.
- re.findall: Encuentra todas las coincidencias del patrón en la cadena y devuelve una lista.
- re.split: Divida la cadena de caracteres en una lista según el patrón.
- re.sub: Encuentra todas las subcadenas de caracteres donde coincida el patrón y las reemplaza con una cadena de caracteres diferente

Vamos a ver distintos ejemplos.

In [40]:
# Cargamos el módulo re
import re

# Definimos una cadena de string y un patrón (palabra)
cadena = "Estudio en la BSM"
patron = r"BSM"

# Queremos saber si BSM se encuentra en el texto de la cadena
coincidencia = re.search(patron, cadena)

# Si BSM está en el texto, se mostrará en el mensaje
if coincidencia:
    print("Coincidencia encontrada:", coincidencia.group())
else:
    print("No se encontraron coincidencias.")

Coincidencia encontrada: BSM


In [41]:
# Definir el patrón (que el texto empiece por mayúscula)
patron = r"[A-Z].*"

# Ejemplo de cadenas de texto a evaluar
cadenas = ["Python es genial", "matlab está bien", "C++ es difícil"]

# Iterar sobre las cadenas y verificar si coinciden con el patrón
for cadena in cadenas:
    coincidencia = re.match(patron, cadena)
    # Mostrar el mensaje según la condición
    if coincidencia:
        print(f'La cadena "{cadena}" empieza con una letra en mayúscula.')
    else:
        print(f'La cadena "{cadena}" no empieza con una letra en mayúscula.')

La cadena "Python es genial" empieza con una letra en mayúscula.
La cadena "matlab está bien" no empieza con una letra en mayúscula.
La cadena "C++ es difícil" empieza con una letra en mayúscula.


In [42]:
# Definimos una cadena de string y un patrón (palabra de 3 letras)
cadena = "Estudio en la BSM en BCN"
patron = r"\b\w{3}\b"

# Queremos que encuentre las palabras de 3 letras
coincidencias = re.findall(patron, cadena)

# Mostramos la lista de palabras
print("Las palabras de 3 letras son:", coincidencias)

Las palabras de 3 letras son: ['BSM', 'BCN']


In [43]:
# Definimos el patrón para buscar palabras
# Buscamos un caracter de espacio en blanco como separador
patron_palabra = r"\s+"

# Definimos una cadena de texto
cadena = "Estudio Python en la BSM"

# Usamos re.split para dividir la cadena en palabras
palabras = re.split(patron_palabra, cadena)

# Mostramos la lista de palabras resultante
print("Palabras encontradas:", palabras)

Palabras encontradas: ['Estudio', 'Python', 'en', 'la', 'BSM']


In [44]:
# Definimos el patrón para buscar palabras
# En este caso, queremos las vocales (mayúsculas o minúsculas)
patron_vocales = r"[aeiouAEIOU]"

# Definimos una cadena de texto anterior
cadena = "Estudio Python en la BSM"

# Usar re.sub para reemplazar vocales por 'X'
nueva_cadena = re.sub(patron_vocales, 'X', cadena)

# Mostramos la cadena original y la resultante
print("Cadena original:", cadena)
print("Cadena modificada:", nueva_cadena)

Cadena original: Estudio Python en la BSM
Cadena modificada: XstXdXX PythXn Xn lX BSM


¡Hay muchas más funciones y muchos patrones diferentes posibles! Las expresiones regulares son un campo enorme para explorar.

Volvamos a nuestro dataset. En nuestro caso, queremos eliminar todos los carácteres que no sean numéricos. Para lograrlo, vamos a usar la función sub para reemplazarlos por nada (''), es decir, para eliminarlos de la cadena de texto.

In [45]:
# Mostramos los valores de la columna original
got_df['Filming Duration'].unique()

array(['Second half of 2010', 'Second half of 2011', 'July–November 2012',
       'July–November 2013', 'July–December 2014', 'July–December 2015',
       'August 2016 – February 2017', 'October 2017 – July 2018'],
      dtype=object)

In [46]:
# Usamos la librería re para trabajar con expresiones regulares
import re

# Primero eliminamos todo caracter que no sea numérico del string
got_df['Filming Year'] = [re.sub(r'[^0-9^.]', '', date) for date in got_df['Filming Duration']]

# Mostramos los valores de la columna modificada
got_df['Filming Year'].unique()

array(['2010', '2011', '2012', '2013', '2014', '2015', '20162017',
       '20172018'], dtype=object)

In [47]:
# En los casos que había dos años (e.g. August 2016 – February 2017) nos quedamos con el primero
# También los convertimos a int en la misma list comprehension
got_df['Filming Year'] = [int(date[0:4]) if len(date)>4 else int(date)for date in got_df['Filming Year']]

In [48]:
# Vamos a ver los valores únicos de la nueva variable
print("Los valores únicos de Filming Year son:\n", got_df['Filming Year'].unique())

Los valores únicos de Filming Year son:
 [2010 2011 2012 2013 2014 2015 2016 2017]
