# ETL: Tratamiento de Textos (I)

En esta sesión y la siguiente vamos a hacer el transformado y limpieza de los campos de tipo Texto (tal y como los hemos visto en la sesión anterior), pero también todos aquellos campos que contengan strings (es decir, también los categóricos con texto). Además, empezaremos con el apasionante mundo de las expresiones regulares, aunque solo de forma introductoria.

Empecemos con nuestro dataset de viajes, al que pronto se unirá otro un poquito diferente y más deportivo:

In [3]:
import pandas as pd
import random

df_viajes=pd.read_csv("C:/Users/david/Downloads/dataset_viajes.csv")

# Tratamiento de Strings en pandas

En el sprint anterior tratamos los strings a partir de funciones y aplicando los métodos `apply` y `transform` (en mucha menor medida), pero era una versión más del "dar cera"/"pulir cera" porque realmente pandas tiene muchos métodos para tratar los valores strings de Series y DataFrames.

En concreto, hay que añadir `.str` a nuestra `Series` o columna del `DataFrame`, y a partir de ahí podemos utilizar un montón de métodos propios de los strings, pero valor a valor de la serie o columna.

Veámoslo con un ejemplo que te sonará. Vamos a limpiar los campos "Destino" y "consumo_kg" de nuestro "df_viajes". Recordando:

In [4]:
df_viajes

Unnamed: 0,Id_vuelo,Aircompany,Origen,Destino,Distancia,avion,consumo_kg,duracion
0,Air_PaGi_10737,Airnar,París,Ginebra,411.0,Boeing 737,,51.0
1,Fly_BaRo_10737,FlyQ,Bali,Roma,12738.0,Boeing 737,33479.13254400001,1167.0
2,Tab_GiLo_11380,TabarAir,Ginebra,Los Angeles,9103.0,Airbus A380,,626.0
3,Mol_PaCi_10737,MoldaviAir,París,Cincinnati,6370.0,Boeing 737,17027.01,503.0
4,Tab_CiRo_10747,TabarAir,Cincinnati,Roma,7480.0,Boeing 747,86115.744,518.0
...,...,...,...,...,...,...,...,...
995,Pam_LoNu_10747,PamPangea,Londres,Nueva York,5566.0,Boeing 747,62300238,391.0
996,Mol_MeLo_10747,MoldaviAir,Melbourne,Londres,16900.0,Boeing 747,194854.5664,1326.0
997,Mol_BaPa_10747,MoldaviAir,Bali,París,11980.0,Boeing 747,128983.868,818.0
998,Air_CaCi_10747,Airnar,Cádiz,Cincinnati,6624.0,Boeing 747,72024.0768,461.0


In [5]:
df_viajes.Destino.value_counts()

Destino
Cincinnati     125
Bali           122
Londres        111
París          111
Ginebra        102
Nueva York     102
Roma            83
Los Angeles     62
Cádiz           58
Melbourne       52
Barcelona       21
GinEbra          2
GiNeBra          2
GINEbRa          2
GInEBrA          2
GInebra          2
BaRCelONa        2
GINebra          2
GInebRA          1
GINebRa          1
MelBOUrnE        1
BARcelOnA        1
GINEbRA          1
MelbOUrnE        1
MeLbourne        1
GIneBra          1
GIneBrA          1
GinebrA          1
GiNebrA          1
GiNEbRa          1
MeLboURnE        1
MELboURnE        1
MELBoURNe        1
MElboUrNe        1
MelboURNe        1
BARCEloNA        1
GInEBRa          1
GInEbRa          1
GINEBra          1
MelBoUrne        1
MelBourne        1
GineBra          1
MeLbOurne        1
GINEBrA          1
MelBouRne        1
MELBoURne        1
MELBourNe        1
GINeBrA          1
GiNEbra          1
MElbOUrnE        1
GiNEBra          1
BarcELONa        1
MElb

In [6]:
df_viajes.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1000 entries, 0 to 999
Data columns (total 8 columns):
 #   Column      Non-Null Count  Dtype  
---  ------      --------------  -----  
 0   Id_vuelo    1000 non-null   object 
 1   Aircompany  1000 non-null   object 
 2   Origen      1000 non-null   object 
 3   Destino     1000 non-null   object 
 4   Distancia   872 non-null    float64
 5   avion       1000 non-null   object 
 6   consumo_kg  862 non-null    object 
 7   duracion    853 non-null    float64
dtypes: float64(2), object(6)
memory usage: 62.6+ KB


In [7]:
df_viajes.consumo_kg.value_counts()

consumo_kg
75328.428            4
18400.052            4
8799.1252            4
150304.854           3
151736.3288          3
                    ..
17459.6604           1
205513.9112          1
23658.3099           1
131538.004           1
87447.93200000002    1
Name: count, Length: 703, dtype: int64

In [8]:
df_viajes["Destino_Corregido"]=df_viajes.Destino.str.lower().str.capitalize()


In [10]:
df_viajes["Destino_Corregido"].value_counts()

Destino_Corregido
Ginebra        131
Cincinnati     125
Bali           122
Londres        111
París          111
Nueva york     102
Roma            83
Melbourne       69
Los angeles     62
Cádiz           58
Barcelona       26
Name: count, dtype: int64

Y lo mismo para "consumo kg" con un truco:

In [13]:
df_viajes["consumo_kg_corregido"]=df_viajes["consumo_kg"].str.replace(",",".").astype("float64")

In [15]:
df_viajes.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1000 entries, 0 to 999
Data columns (total 10 columns):
 #   Column                Non-Null Count  Dtype  
---  ------                --------------  -----  
 0   Id_vuelo              1000 non-null   object 
 1   Aircompany            1000 non-null   object 
 2   Origen                1000 non-null   object 
 3   Destino               1000 non-null   object 
 4   Distancia             872 non-null    float64
 5   avion                 1000 non-null   object 
 6   consumo_kg            862 non-null    object 
 7   duracion              853 non-null    float64
 8   Destino_Corregido     1000 non-null   object 
 9   consumo_kg_corregido  862 non-null    float64
dtypes: float64(3), object(7)
memory usage: 78.3+ KB


In [None]:
##Algunas de las funciones para tratar y organizar Texto en Data Frames

| Método       | Descripción                     | Método       | Descripción                     |
|--------------|---------------------------------|--------------|---------------------------------|
| `len()`      | Longitud del string             | `islower()`  | Verifica si está en minúsculas  |
| `ljust()`    | Justifica a la izquierda        | `isupper()`  | Verifica si está en mayúsculas  |
| `rjust()`    | Justifica a la derecha          | `isnumeric()`| Verifica si es numérico         |
| `center()`   | Centra el string                | `isdecimal()`| Verifica si es decimal          |
| `zfill()`    | Rellena con ceros a la izquierda| `split()`    | Divide el string                |
| `strip()`    | Elimina espacios al inicio y fin| `translate()`| Traduce caracteres              |
| `rstrip()`   | Elimina espacios a la derecha   | `partition()`| Divide en tres partes           |
| `lstrip()`   | Elimina espacios a la izquierda | `swapcase()` | Cambia mayúsculas/minúsculas    |
| `lower()`    | Convierte a minúsculas          | `capitalize()`| Primera letra en mayúscula     |
| `upper()`    | Convierte a mayúsculas          | `find()`     | Busca un substring              |
| `replace()`  | Reemplaza un substring          | `rfind()`    | Busca un substring desde el final|
| `startswith()`| Verifica si empieza con...     | `index()`    | Busca un substring (con error)  |
| `endswith()` | Verifica si termina con...      | `rindex()`   | Busca un substring desde el final (con error)|
| `isalnum()`  | Verifica si es alfanumérico     | `istitle()`  | Verifica si es un título        |
| `isalpha()`  | Verifica si es alfabético       | `isspace()`  | Verifica si es espacio en blanco|
| `isdigit()`  | Verifica si es un dígito        |              |                                 |

# Expresiones regulares

El mundo de las expresiones regulares nos daría para un bootcamp entero y aún así… Por eso las vamos a ir viendo poco a poco a lo largo de lo que resta de curso, pero hoy las vamos a introducir con ejemplos, tanto fuera como dentro de pandas.

Y ¿qué son las expresiones regulares? En palabras de ChatGPT: Las expresiones regulares son patrones utilizados para encontrar coincidencias en cadenas de texto.

Un ejemplo, revisa rápidamente este texto:

"En 2023, la nave espacial CRX-2049 partió. En 2049, encontramos vida en Marte. ¡Increíble! Costó $204M, el evento más importante desde el 1969."

In [44]:
texto= "En 2023, la nave espacial CRX-2049 partió. En 2049, encontramos vida en Marte. ¡Increíble! Costó $204M, el evento más importante desde el 1969."

¿Cómo harías para encontrar con poco código todas las fechas que muestra, el dinero y el nombre de la nave?

Podrías crear un programa o función que recorriese el texto, fuera probando cada palabra si es un número, si tiene cuatro cifras... etc, etc.

Las expresiones regulares vienen a ayudarte (ejem) en estas tareas:

In [18]:
import re  # para necesidades más complejas regex, pero a nosotros por ahora nos llega con

print(re.findall(r"[0-9]{4}", texto))
print(re.match(r".*?([A-Z]+?-[0-9]{4})", texto).group(1))

['2023', '2049', '2049', '1969']
CRX-2049


Casi, ahora lo corregiremos, lo importante:

- Existen varias funciones dentro del paquete `re` que nos permiten aplicar búsqueda por patrones (eso que aparece como primer argumento y que es como si el gato se hubiera puesto a pisar el teclado).
- La sintaxis es, en general, una función que se le pasa un patrón y luego una variable de tipo string en la que aplicar el patrón.

### Funciones básicas

Hay muchas, pero te interesan:

- **`findall(patron, variable)`**: Devuelve una lista con todas las partes de la variable que cumplen el patrón.  
- **`match(patron, variable)`**: Devuelve un objeto con grupos (ahora veremos) con las ocurrencias que cumplen el patrón, buscando desde el principio de la variable.  
- **`sub(patron1, patron2, variable)`**: Devuelve un string con todas las ocurrencias de `patron1`, que encuentre en `variable`, sustituidas por `patron2`.  

# Transformacion de texto II

Esta es la madre del cordero y aquí es donde entramos no sólo en Matrix sino en MatrixFriki++, te dejo aquí un enlace a todos los patrones sencillos (que se pueden combinar entre sí) y ahora veamos los principales para empezar:

1. Sencillos
".": Cualquier caracter (si quiero buscar el carácter "." tenemos que poner ".")

"\d": Un dígito cualquiera (o sea de 0 a 9)

"\D": Un carácter que no es un número

"\w": Una letra (no incluye signos de puntuación)

"\W": Un carácter que no es una letra

"\s": Espacios,tabuladores ("\t"), retornos de carro/linea_nueva ("\n")

"\S": Un carácter que no sea el anterior.

**Ejemplos**

In [20]:
## Todas las palabras de 4 caracteres rodeadas por espacios:

In [24]:
re.findall(" .... ",texto)

[' nave ', ' vida ']

In [25]:
#  Todos los números de 4 cifras a los que no les siga una letra:

re.findall("\d\d\d\d\W",texto)

  re.findall("\d\d\d\d\W",texto)


['2023,', '2049 ', '2049,', '1969.']

In [26]:
### Eliminar todos los espacios y tabuladores:

re.sub("\s","",texto)

  re.sub("\s","",texto)


'En2023,lanaveespacialCRX-2049partió.En2049,encontramosvidaenMarte.¡Increíble!Costó$204M,eleventomásimportantedesdeel1969.'

Anclas
Con lo anterior ya podemos hacer muchas cosas, pero existen unas cuantas "anclas" o modificadores que le dicen a nuestras funciones de expresiones regulares que se comporten de una manera bastante útil:

* "^", Busca al principio de la variable o cadena.
* "$", Busca al final de la variable o cadena.
* "[]", Es válido para cualquiera de los caracteres o patrones dentro de los corchetes (ojo, si quiero buscar el carácter corchete necesito "[" o "]")
* "[^ ]", Es válido si no aparece ninguno de los caracteres o patrones dentro de los corchetes
* "|", Es válido para lo que haya a la izquierda o derecha del |
* "()", Lo que encuentres que coincida con el patrón de dentro de los paréntesis forma un grupo
Sí lo sé te has quedado igual o peor, ejemplos, ejemplos, ejemplos:

In [30]:
# Encuentra cualquier número de 3 o 4 cifras
re.findall("\d\d\d\d|\d\d\d",texto)

# Encuentra cualquier caracter que no sea a, b, ni un número, ni un espacio:
re.findall("[^ab\d]",texto)

# Sustituye, las letras e y a por E:
re.sub("[ea]","E",texto)

  re.findall("\d\d\d\d|\d\d\d",texto)
  re.findall("[^ab\d]",texto)


'En 2023, lE nEvE EspEciEl CRX-2049 pErtió. En 2049, EncontrEmos vidE En MErtE. ¡IncrEíblE! Costó $204M, El EvEnto más importEntE dEsdE El 1969.'

### Cuantificadores

Y aquí de verdad llega la potencia (y también la complejidad mayor):

* "<patrón>*" encuentra 0 o más ocurrencias del patrón <patrón>

* "<patrón>+" encuentra 1 o más ocurrencias del patrón <patrón>
* "<patrón>?" encuentra 0 o 1 ocurrencia del patrón <patrón>
* "<patrón>{(num)}" encuentra exactamente (num) ocurrencias seguidas del patrón <patrón>
* "<patrón>{(numero),(numero2)}" encuentra ocurrencias que se repitan seguidas entre (numero) y (numero2) del <patrón> (si no pones (numero2), es mínimo (numero))
* "[a-z]" encuentra cualquier letra de la "a" a la "z", sólo minúsculas (no acentos, no ñ)
* "[a-zA-Z]" encuentra cualquier letra de la "a" a la "z" o de la "A" a la "Z"
* "[0-9]" encuentra cualquier número del 0 al 9 (equivale a \d)
* "[2-6]" encuentra cualquier número del 2 al 6 (y puedes cambiar el intervalo)

In [43]:
# Ahora sí, encuentra los números de 4 cifras que estén rodeados por espacios, comas o puntos:
re.findall(r"[ ,.]\d{4}[ ,.]",texto)
re.findall(r"[ ,.](\d{4})[ ,.]",texto)
# Encuentra las fechas:
print(re.findall(r"[^-]([0-9]{4})[^A-Z]",texto))

# Encuentra el nombre de las naves sabiendo que son tres letras mayúsculas seguidas de un guión y 4 números:
nave = re.match(r".*([A-Z]{3}-\d{4})", texto).group(1)
print(nave)

# Encuentra todas las palabras (sin números) de 4 o más letras que empiecen por e, rodeadas por espacios, puntos o comas:
print(re.findall(r" [eE][a-zA-Z]{3,}", texto))

# Y sólo la palabra
print(re.findall(r" ([eE][a-zA-Z]{3,})", texto))

['2023', '2049', '1969']
CRX-2049
[' espacial', ' encontramos', ' evento']
['espacial', 'encontramos', 'evento']


# ETL: Tratamiento de Textos (II)

Además de limpiar los procesos de transformación del ciclo ETL se encargan de obtener o crear nuevas columnas para potenciar el análisis de datos. Qué columnas debemos crear dependerán del problema o investigación que estemos tratando y de los datos.

En esta sesión vamos a ver dos ejemplos pero a lo largo del bootcamp verás muchoas más que te servirán de guía para cuando tengas que aplicarlo por ti mismo.

Esta vez vamos a emplear dos datasets, nuestro conocido de vuelos y un nuevo más deportivo.

In [47]:
import pandas as pd
import random 
df_viajes = pd.read_csv("C:/Users/david/Downloads/dataset_viajes.csv")
df_liga  = pd.read_csv("C:/Users/david/Downloads/df_liga_2019.csv")

## Sacando provecho de las columnas/campos tipo Texto: Categorización

En sesiones anteriores comentamos que un campo de tipo texto es necesario, en general, tratarlo con técnicas de procesamiento de lenguaje natura (o NLP), pero no siempre tendremos que ser tan sofisticados para obtener algún valor de los mismos.

Veamos la columna "Incidencias" del dataset de viajes:

In [51]:
df_viajes.Aircompany.sample(30)

837    MoldaviAir
804          FlyQ
177      TabarAir
59       TabarAir
263          FlyQ
926    MoldaviAir
886      TabarAir
498      TabarAir
800          FlyQ
422    MoldaviAir
743          FlyQ
399      TabarAir
86           FlyQ
292     PamPangea
665        Airnar
748     PamPangea
519    MoldaviAir
73           FlyQ
504     PamPangea
577        Airnar
365      TabarAir
459    MoldaviAir
241        Airnar
624    MoldaviAir
87       TabarAir
605        Airnar
849          FlyQ
451        Airnar
565        Airnar
26      PamPangea
Name: Aircompany, dtype: object

Parece que así de primeras no se puede obtener una categórica, podríamos buscar quizás una categorización más sencilla... Pero si nos fijamos en su distribución

In [52]:
cardinalidad = df_viajes.Aircompany.nunique()/len(df_viajes)*100

In [53]:
print(cardinalidad)

0.5


In [54]:
df_viajes.Aircompany.value_counts()

Aircompany
TabarAir      229
MoldaviAir    226
PamPangea     192
Airnar        180
FlyQ          173
Name: count, dtype: int64

## Sacando provecho de las columnas/campos tipo Texto: Extracción

Pero no sólo la categorización es una forma de obtener información de un campo de tipo Texto libre, por ejemplo, veamos el dataset futbolero:

In [55]:
df_liga

Unnamed: 0,id_partido,equipo_local,equipo_visitante,Division,Temporada,fecha_dt,goles_local,goles_visitante,arbitro,estadio,odd_1,odd_x,odd_2,Informe_Tarjetas
0,214023,Celta Vigo,Real Madrid,1,2019,2019-08-17 17:00:00,1,3,Javier Estrada,Abanca-Balaídos,4.75,4.20,1.65,Hubo 01 tajetas rojas al equipo visitante;Hubo...
1,214403,Racing Santander,Malaga,2,2019,2019-08-17 18:00:00,0,1,Aitor Gorostegui,Campos de Sport de El Sardinero,2.87,3.10,2.55,Hubo 03 amarillas mostradas al equipo local;Hu...
2,214024,Valencia,Real Sociedad,1,2019,2019-08-17 19:00:00,1,1,Jesús Gil,Estadio de Mestalla,1.66,3.75,5.50,Hubo 4 amarillas mostradas al equipo local;Hub...
3,214404,Almeria,Albacete,2,2019,2019-08-17 19:00:00,3,0,Saúl Ais,Estadio de los Juegos Mediterráneos,2.37,3.10,3.10,Hubo 00 rojas a jugadores visitantes;Hubo 01 a...
4,214026,Villarreal,Granada CF,1,2019,2019-08-17 21:00:00,4,4,Adrián Cordero,Estadio de la Cerámica,1.60,3.80,6.50,Hubo 01 tarjetas amarillas de jugadores visit...
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
587,214853,Alcorcon,Girona,2,2019,2020-07-20 21:00:00,2,0,Juan Pulido,Estadio Santo Domingo,2.37,2.87,3.40,Hubo 0 tajetas rojas al equipo visitante;Hubo ...
588,214863,Zaragoza,Ponferradina,2,2019,2020-07-20 21:00:00,2,1,Dámaso Arcediano,Estadio de la Romareda,2.10,3.30,3.50,Hubo 00 tarjetas amarillas de jugadores visit...
589,214854,Almeria,Malaga,2,2019,2020-07-20 21:00:00,0,0,Saúl Ais,Estadio de los Juegos Mediterráneos,2.10,3.20,3.60,Hubo 2 tarjetas amarillas de jugadores visita...
590,214862,Sporting Gijon,Huesca,2,2019,2020-07-20 21:00:00,0,1,Gorka Sagues,Estadio Municipal El Molinón,3.30,3.10,2.15,Hubo 2 amarillas para jugadores del equipo loc...


In [56]:
df_liga.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 592 entries, 0 to 591
Data columns (total 14 columns):
 #   Column            Non-Null Count  Dtype  
---  ------            --------------  -----  
 0   id_partido        592 non-null    int64  
 1   equipo_local      592 non-null    object 
 2   equipo_visitante  592 non-null    object 
 3   Division          592 non-null    int64  
 4   Temporada         592 non-null    int64  
 5   fecha_dt          592 non-null    object 
 6   goles_local       592 non-null    int64  
 7   goles_visitante   592 non-null    int64  
 8   arbitro           592 non-null    object 
 9   estadio           592 non-null    object 
 10  odd_1             592 non-null    float64
 11  odd_x             592 non-null    float64
 12  odd_2             592 non-null    float64
 13  Informe_Tarjetas  592 non-null    object 
dtypes: float64(3), int64(5), object(6)
memory usage: 64.9+ KB


No hay nulos y las columnas que son susceptibles de contener Texto son "equipo_local","equipo_visitante","arbitro","estadio","fecha_dt","Informe_Tarjetas". Te invito a que evalúes el resto y juegues con el dataset, pero para no dedicar demasiado tiempo nos vamos a centrar en la que tiene más pinta de tener texto libre: "Informe_Tarjetas"

In [57]:
df_liga["Informe_Tarjetas"].value_counts()

Informe_Tarjetas
Hubo 02  tarjetas amarillas de jugadores visitantes;Hubo 0 rojas a jugadores visitantes;Hubo 0 tarjetas rojas sobre el equipo local;Hubo 1 amarillas mostradas al equipo local                2
Hubo 01  tarjetas amarillas de jugadores visitantes;Hubo 00 tajetas rojas al equipo visitante;Hubo 03 amarillas para jugadores del equipo local;Hubo 00 rojas a jugadores del equipo local    1
Hubo 01 amarillas mostradas al equipo local;Hubo 1 rojas a jugadores del equipo local;Hubo 4  tarjetas amarillas de jugadores visitantes;Hubo 0 rojas a jugadores visitantes                  1
Hubo 3 tarjetas amarillas para el equipo visitantes;Hubo 01 amarillas para jugadores del equipo local;Hubo 0 tarjetas rojas sobre el equipo local;Hubo 1 tajetas rojas al equipo visitante    1
Hubo 1 rojas a jugadores visitantes;Hubo 01 tarjetas rojas sobre el equipo local;Hubo 00 amarillas para jugadores del equipo local;Hubo 4  tarjetas amarillas de jugadores visitantes         1
                       

In [59]:
print(df_liga.Informe_Tarjetas.nunique()/len(df_liga)*100)

99.83108108108108


Es un campo claramente complejo. Pero si observamos con cierto cuidado, podemos ver que hay información que puede ser interesante para el contexto del dataset. Están las tarjetas rojas y amarillas por equipo. ¿Cómo podríamos obtener ese valor de este campo?

In [60]:
df_liga["Informe_Tarjetas"].sample(5).to_list()

['Hubo 03 amarillas para jugadores del equipo local;Hubo 00 rojas a jugadores del equipo local;Hubo 3  tarjetas amarillas de jugadores visitantes;Hubo 0 rojas a jugadores visitantes',
 'Hubo 01 tarjetas amarillas para el equipo visitantes;Hubo 00 amarillas para jugadores del equipo local;Hubo 00 rojas a jugadores visitantes;Hubo 0 tarjetas rojas sobre el equipo local',
 'Hubo 03 amarillas mostradas al equipo local;Hubo 0 tajetas rojas al equipo visitante;Hubo 0 rojas a jugadores del equipo local;Hubo 05 tarjetas amarillas para el equipo visitantes',
 'Hubo 02 amarillas mostradas al equipo local;Hubo 3 tarjetas amarillas para el equipo visitantes;Hubo 0 rojas a jugadores visitantes;Hubo 1 tarjetas rojas sobre el equipo local',
 'Hubo 03  tarjetas amarillas de jugadores visitantes;Hubo 00 rojas a jugadores visitantes;Hubo 02 amarillas mostradas al equipo local;Hubo 00 tarjetas rojas sobre el equipo local']

Esto lleva un tiempo y puede que la información a extraer no sea tan interesante como para dedicárselo, yo te lo doy hecho y te dejo como ejercicio que veas que los patrones están ahí:

* Todos los informes están divididos en cuatro partes por ";"
* En cada parte se informa de las tarjetas rojas o amarillas pare el equipo local o el visitante.
* Parece que después del número vienen el tipo de tarjeta (amarilla, roja), a veces acompañado de otras palabras
* Después del tipo de tarjeta aparece el equipo o mención al mismo (visintante, visitantes, local, locales)

 Vamos a intentar sacar las rojas de los visitantes (y tendrás como ejercicio hacerlo para el resto en los ejercicios de este grupo :-):

In [61]:
ejemplo1 = "Hubo 0 tajetas rojas al equipo visitante"
ejemplo2 = "Hubo 01 rojas a jugadores visitantes"

In [62]:
import re
patron = "Hubo ([0-9]+) .*rojas .* visitante[s]?"
print(re.match(patron, ejemplo1).group(1))


0


In [63]:
print(re.match(patron, ejemplo2).group(1))

01


In [65]:
num_tarjetas=int(re.match(patron, ejemplo2).group(1))

In [66]:
print(num_tarjetas)

1


Lo tenemos... ¿y ahora cómo lo aplicamos al dataframe? Pues sí podríamos hacer una función, pero esta vez te voy a ahorrar un poco de tiempo... Pandas tiene métodos para aplicar expresiones regulares:

In [67]:
df_liga.Informe_Tarjetas.str.match(patron)

0      True
1      True
2      True
3      True
4      True
       ... 
587    True
588    True
589    True
590    True
591    True
Name: Informe_Tarjetas, Length: 592, dtype: bool

In [68]:
df_liga.Informe_Tarjetas.str.extract(patron)

Unnamed: 0,0
0,01
1,03
2,4
3,00
4,01
...,...
587,0
588,00
589,2
590,2


In [69]:
df_liga["Tarjetas_Rojas_Visitante"]=df_liga.Informe_Tarjetas.str.extract(patron).astype("int")

In [71]:
df_liga.Tarjetas_Rojas_Visitante.value_counts(True)*100

Tarjetas_Rojas_Visitante
0    43.243243
1    14.189189
2    13.175676
3    11.993243
4    10.979730
5     3.885135
6     2.195946
7     0.337838
Name: proportion, dtype: float64

Aquí te dejo otros métodos que sirven para aplicar expresiones regulares a valores string. Ojo recuerda que tienes que poner ".str." antes de invocarlos:

| Método      | Descripción                                                                 |
|-------------|-----------------------------------------------------------------------------|
| `match()`   | Llama a `re.match()` en cada elemento, devolviendo un booleano.               |
| `extract()` | Llama a `re.match()` en cada elemento, devolviendo los grupos coincidentes como strings. |
| `findall()` | Llama a `re.findall()` en cada elemento.                                     |
| `replace()` | Reemplaza ocurrencias del patrón con otra cadena.                             |
| `contains()`| Llama a `re.search()` en cada elemento, devolviendo un booleano.                |
| `count()`   | Cuenta las ocurrencias del patrón.                                          |
| `split()`   | Equivalente a `str.split()`, pero acepta expresiones regulares.               |
| `rsplit()`  | Equivalente a `str.rsplit()`, pero acepta expresiones regulares.              |

# ETL: Tratamientos de Fechas

Los valores de tipo Fecha son uno de esos tipos "difíciles" pero útiles cuando puedes manejarlos con cierta soltura y sin complejas funciones. Es decir cuando hay una librería o módulo que te lo solucione. En caso de Python hay, y nosotros vamos a usar en concreto Datetime. Así sin más carga datos y esta nueva librería y veamos como hacer un primer tratamiento (simple) de los valores tipo fecha.

### El tipo datetime, in two kicks

Para empezar echemos otro vistazo a nuestro dataset futbolero:

In [79]:
import datetime as dt
df_liga

Unnamed: 0,id_partido,equipo_local,equipo_visitante,Division,Temporada,fecha_dt,goles_local,goles_visitante,arbitro,estadio,odd_1,odd_x,odd_2,Informe_Tarjetas,Tarjetas_Rojas_Visitante
0,214023,Celta Vigo,Real Madrid,1,2019,2019-08-17 17:00:00,1,3,Javier Estrada,Abanca-Balaídos,4.75,4.20,1.65,Hubo 01 tajetas rojas al equipo visitante;Hubo...,1
1,214403,Racing Santander,Malaga,2,2019,2019-08-17 18:00:00,0,1,Aitor Gorostegui,Campos de Sport de El Sardinero,2.87,3.10,2.55,Hubo 03 amarillas mostradas al equipo local;Hu...,3
2,214024,Valencia,Real Sociedad,1,2019,2019-08-17 19:00:00,1,1,Jesús Gil,Estadio de Mestalla,1.66,3.75,5.50,Hubo 4 amarillas mostradas al equipo local;Hub...,4
3,214404,Almeria,Albacete,2,2019,2019-08-17 19:00:00,3,0,Saúl Ais,Estadio de los Juegos Mediterráneos,2.37,3.10,3.10,Hubo 00 rojas a jugadores visitantes;Hubo 01 a...,0
4,214026,Villarreal,Granada CF,1,2019,2019-08-17 21:00:00,4,4,Adrián Cordero,Estadio de la Cerámica,1.60,3.80,6.50,Hubo 01 tarjetas amarillas de jugadores visit...,1
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
587,214853,Alcorcon,Girona,2,2019,2020-07-20 21:00:00,2,0,Juan Pulido,Estadio Santo Domingo,2.37,2.87,3.40,Hubo 0 tajetas rojas al equipo visitante;Hubo ...,0
588,214863,Zaragoza,Ponferradina,2,2019,2020-07-20 21:00:00,2,1,Dámaso Arcediano,Estadio de la Romareda,2.10,3.30,3.50,Hubo 00 tarjetas amarillas de jugadores visit...,0
589,214854,Almeria,Malaga,2,2019,2020-07-20 21:00:00,0,0,Saúl Ais,Estadio de los Juegos Mediterráneos,2.10,3.20,3.60,Hubo 2 tarjetas amarillas de jugadores visita...,2
590,214862,Sporting Gijon,Huesca,2,2019,2020-07-20 21:00:00,0,1,Gorka Sagues,Estadio Municipal El Molinón,3.30,3.10,2.15,Hubo 2 amarillas para jugadores del equipo loc...,2


Hay un campo, "fecha_dt", que claramente es una fecha con hora. ¿Pero qué tipo tiene?

In [80]:
df_liga.fecha_dt.dtypes

dtype('O')

Es un string, y por lo tanto si lo queremos manipular tal y como filtrar los partidos de Agosto, o los que empiezan a las 20:00 horas, tendremos que hacer funciones y eso es lo que queremos evitarnos. Pues es posible si logramos convertirlo a un tipo de Python denominado Datetime que Pandas maneja bastante bien.

Y qué pinta tiene Datetime... Creemos uno:

In [81]:
fecha = dt.datetime(year = 2023, month = 11, day = 3, hour = 20)
print(fecha)

2023-11-03 20:00:00


¿Y ahora qué, Jaime? ¿Qué hemos ganado?

Pues que operar con ellos es bastante sencillo:

In [82]:
# Crear fechas sumando periodos de tiempo
fecha2 = fecha + dt.timedelta(hours = 20)
print(fecha2)

fecha3 = fecha - dt.timedelta(days = 20)
print(fecha3)

2023-11-04 16:00:00
2023-10-14 20:00:00


In [83]:
# Comparar fechas
fecha3 < fecha < fecha2

True

In [84]:
# Encontrar diferencias de tiempo
diferencia = fecha2 - fecha3
print(diferencia)
print(type(diferencia))
print(diferencia.seconds)

20 days, 20:00:00
<class 'datetime.timedelta'>
72000


Es decir es bastante útil para manejo directo. La cuestión ahora es como pasar de string a datetime y viceversa...

## Datetime <-> String
Tenemos dos métodos y ambos hacen uso de un patrón de conversión cuyas convenciones puedes encontrar aquí para strftime y aquí para ambos:

* strftime para convertir de datetime a string
* strptime para convertir de string a datetime

In [86]:
# Strftime, ejemplo 
fecha.strftime("Hoy es %d de %m de %Y, es %a, y son las %H y %M minutos")
# Puedes usar %d,%m, etc como quieras

'Hoy es 03 de 11 de 2023, es Fri, y son las 20 y 00 minutos'

In [85]:
# Strptime, ejemplo
cadena_con_fecha = 'Hoy es 03 de 11 de 2023, es Fri, y son las 20 y 00 minutos'
patron = "Hoy es %d de %m de %Y, es %a, y son las %H y %M minutos"
fecha_de_string = dt.datetime.strptime(cadena_con_fecha,patron)
print(fecha_de_string)

2023-11-03 20:00:00


## Pandas y Datetime
Ahora si queremos convertir nuestro campo "fecha_dt" a datetime, solo tendríamos que hacernos una función que usaser strptime.... Vale, vale, existe un método para hacerlo, siempre que sepamos el patrón o formato como en el ejemplo anterior:

In [87]:
df_liga.fecha_dt.sample(1)

426    2020-06-14 22:00:00
Name: fecha_dt, dtype: object

In [88]:

patron = "%Y-%m-%d %H:%M:%S"

In [89]:

df_liga["FECHA"] = pd.to_datetime(df_liga.fecha_dt)

In [90]:
df_liga.FECHA

0     2019-08-17 17:00:00
1     2019-08-17 18:00:00
2     2019-08-17 19:00:00
3     2019-08-17 19:00:00
4     2019-08-17 21:00:00
              ...        
587   2020-07-20 21:00:00
588   2020-07-20 21:00:00
589   2020-07-20 21:00:00
590   2020-07-20 21:00:00
591   2020-08-07 20:00:00
Name: FECHA, Length: 592, dtype: datetime64[ns]


Y ya podemos sacarle provecho:

In [92]:
# Partidos de liga de la temporada 19-20 que se jugaron en 2020
df_liga[df_liga.FECHA > "2020"]

# Partidos de la liga de la temporada que se jugaron en Domingo (Lunes -> 0, Domingo -> 6):
df_liga[df_liga.FECHA.dt.day_of_week == 6]

# Partidos en diciembre de 2019
df_liga[df_liga.FECHA.dt.month == 12]

Unnamed: 0,id_partido,equipo_local,equipo_visitante,Division,Temporada,fecha_dt,goles_local,goles_visitante,arbitro,estadio,odd_1,odd_x,odd_2,Informe_Tarjetas,Tarjetas_Rojas_Visitante,FECHA
227,214170,Sevilla,Leganes,1,2019,2019-12-01 12:00:00,1,0,Ricardo De Burgos,Estadio Ramón Sánchez Pizjuán,1.57,4.0,6.0,Hubo 00 rojas a jugadores del equipo local;Hub...,0,2019-12-01 12:00:00
228,214592,Fuenlabrada,Cadiz,2,2019,2019-12-01 12:00:00,1,0,Saúl Ais,Estadio Fernando Torres,2.5,3.0,3.0,Hubo 5 amarillas para jugadores del equipo loc...,5,2019-12-01 12:00:00
229,214163,Athletic Club,Granada CF,1,2019,2019-12-01 14:00:00,2,0,Adrián Cordero,San Mamés Barria,1.7,3.4,6.0,Hubo 00 tarjetas rojas sobre el equipo local;H...,0,2019-12-01 14:00:00
230,214166,Espanyol,Osasuna,1,2019,2019-12-01 16:00:00,2,4,Mario Melero,RCDE Stadium,2.15,3.1,3.6,Hubo 0 tarjetas rojas sobre el equipo local;Hu...,0,2019-12-01 16:00:00
231,214597,Oviedo,Rayo Vallecano,2,2019,2019-12-01 16:00:00,2,1,Juan Pulido,Estadio Nuevo Carlos Tartiere,2.7,3.1,2.7,Hubo 0 tarjetas rojas sobre el equipo local;Hu...,0,2019-12-01 16:00:00
232,214593,Lugo,Deportivo La Coruna,2,2019,2019-12-01 18:00:00,0,0,José López,Estadio Anxo Carro,3.1,3.1,2.4,Hubo 02 amarillas mostradas al equipo local;Hu...,2,2019-12-01 18:00:00
233,214590,Elche,Racing Santander,2,2019,2019-12-01 18:00:00,2,0,Jorge Figueroa,Estadio Manuel Martínez Valero,2.05,3.1,4.0,Hubo 0 rojas a jugadores visitantes;Hubo 00 ro...,0,2019-12-01 18:00:00
234,214167,Getafe,Levante,1,2019,2019-12-01 18:30:00,4,0,Javier Estrada,Coliseum Alfonso Pérez,1.66,3.8,5.5,Hubo 00 rojas a jugadores del equipo local;Hub...,0,2019-12-01 18:30:00
235,214591,Extremadura,Las Palmas,2,2019,2019-12-01 20:00:00,0,1,Gorka Sagues,Estadio Francisco de la Hera,2.45,3.0,3.1,Hubo 01 rojas a jugadores visitantes;Hubo 07 t...,1,2019-12-01 20:00:00
236,214164,Atletico Madrid,Barcelona,1,2019,2019-12-01 21:00:00,0,1,Antonio Mateu,Estadio Wanda Metropolitano,2.75,3.3,2.6,Hubo 4 tarjetas amarillas de jugadores visita...,4,2019-12-01 21:00:00


Siempre que tengas campos con pinta de fechas en tus datasets conviertelos a datetime.