# Profundizando en las operaciones con Strings


Una de las fortalezas de Python es su relativa facilidad para manejar y manipular cadenas de texto.

Pandas se basa en esto para proporcionar un conjunto completo de operaciones de texto *vectorizadas*, que son una pieza esencial para extraer información de los textos que pueda ser analizada posteriormente, ya que es prácticamente imposible trabajar con cadenas de texto en bruto.

En esta sección, analizaremos algunas de las operaciones con strings de Pandas, y luego veremos cómo usarlas para limpiar parcialmente un conjunto de datos muy desordenado de recetas recopiladas de Internet.

## Introducción a las operaciones con strings de Pandas

Hemos visto cómo herramientas como NumPy y Pandas generalizan las operaciones aritméticas para poder trabajar con conjuntos de datos, como por ejemplo:

In [1]:
import numpy as np
x = np.array([2, 3, 5, 7, 11, 13])
x * 2

array([ 4,  6, 10, 14, 22, 26])

Este fenómeno es a lo que nos referimos cuando hablamos de vectorización de operaciones. De este modo, se simplifica la sintaxis a emplear para operar con matrices de datos, pues ya no tendremos que preocuparnos por el tamaño o la forma de la matriz, sino por la operación que queremos que se realice.

Para matrices de cadenas, NumPy no proporciona un acceso tan simple, por lo que no es posible realizar estas operaciones más que iterando sobre cada uno de los elementos, lo que reduce su eficiencia y dificulta su uso:

In [2]:
data = np.array(['peter', 'Paul', 'MARY', 'gUIDO'])

[s.capitalize() for s in data]

# lista = []
# for s in data:
#     lista.append(s.capitalize())
# lista

['Peter', 'Paul', 'Mary', 'Guido']

Además, dado que no está pensado para ello, solo nos permite trabajar con algunos datos. Esto hace que en casos más complejos, como datos faltantes, no sea capaz de ejecutar las operaciones.
Por ejemplo:

In [3]:
data = np.array(['peter', 'Paul', None, 'MARY', 'gUIDO'])
[s.capitalize() for s in data]

AttributeError: 'NoneType' object has no attribute 'capitalize'

Pandas incluye características para abordar tanto esta necesidad de operaciones de cadenas vectorizadas como para manejar correctamente los datos faltantes a través del atributo ``str`` de los objetos ``Series`` de Pandas que contienen cadenas.

Veámoslo con un ejemplo:

In [4]:
import pandas as pd
names = pd.Series(data)
names

0    peter
1     Paul
2     None
3     MARY
4    gUIDO
dtype: object

Ahora, si quisiéramos unificar el formato de los nombres para poder compararlos entre ellos y que queden bonitos, podríamos optar por convertirlos de forma que todos tuvieran su primera letra mayúscula y el resto en minúsculas.

Con NumPy, hemos visto que esto no era posible por los valores nulos. Sin embargo, con Pandas es tan simple como:

In [5]:
names.str.capitalize()

0    Peter
1     Paul
2     None
3     Mary
4    Guido
dtype: object

Podemos hacer uso de las ventajas de los notebooks pulsando el ``Tabulador`` trasn escribir nuestro objeto ``Series`` seguido de ``.str.``, donde nos aparecerán todas las opciones posibles. Pruébalo en la sigueinte celda, simplemente ponte al final del ``.`` y pulsa la tecla ``Tabulador``:

In [6]:
names.str.

SyntaxError: invalid syntax (<ipython-input-6-98daee9139ee>, line 1)

Además, los métodos ``str`` también nos sirven con los índices:

In [7]:
names.index = ['aaa', 'bBb', None, 'ddD', 'eee']
print(names.index)
names.index.str.capitalize()

Index(['aaa', 'bBb', None, 'ddD', 'eee'], dtype='object')


Index(['Aaa', 'Bbb', None, 'Ddd', 'Eee'], dtype='object')

In [8]:
names.index = names.index.str.capitalize()
names = names.str.capitalize()
names

Aaa    Peter
Bbb     Paul
NaN     None
Ddd     Mary
Eee    Guido
dtype: object

## Tabla resumen de los métodos de Pandas para strings

La mayoría de estos métodos se parecen a los vistos para las cadenas de texto de Python, por lo que nos resultará bastante intuitivo. Pero no sólo dispondremos de estos métodso, sino que habrá otros añadidos con los que les podremos sacar más jugo a las cadenas de texto.

En esta sección, comenzaremos por los métodos comunes, pasaremos a las expresiones regulares, y terminaremos por otros métodos propios de los ``Series``.

In [9]:
monte = pd.Series(['Graham Chapman', 'John Cleese', 'Terry Gilliam',
                   'Eric Idle', 'Terry Jones', 'Michael Palin'])

### Métodos similares a Python

Casi todos los métodos de Python para tratar strings han sido replicados por Pandas de forma vectorizada. A continuación, se recoge una lista con estos métodos, accesibles con el prefijo ``.str.``, como hemos visto anteriormente:

|             |                  |                  |                  |
|-------------|------------------|------------------|------------------|
|``len()``    | ``lower()``      | ``translate()``  | ``islower()``    | 
|``ljust()``  | ``upper()``      | ``startswith()`` | ``isupper()``    | 
|``rjust()``  | ``find()``       | ``endswith()``   | ``isnumeric()``  | 
|``center()`` | ``rfind()``      | ``isalnum()``    | ``isdecimal()``  | 
|``zfill()``  | ``index()``      | ``isalpha()``    | ``split()``      | 
|``strip()``  | ``rindex()``     | ``isdigit()``    | ``rsplit()``     | 
|``rstrip()`` | ``capitalize()`` | ``isspace()``    | ``partition()``  | 
|``lstrip()`` |  ``swapcase()``  |  ``istitle()``   | ``rpartition()`` |


Fíjate que, dado que estamos trabajando con operaciones vectorizadas sobre ``Series`` de strings, el resultado no será otro ``Series``.

De strings (objects):

In [10]:
monte

0    Graham Chapman
1       John Cleese
2     Terry Gilliam
3         Eric Idle
4       Terry Jones
5     Michael Palin
dtype: object

In [11]:
monte.str.lower()

0    graham chapman
1       john cleese
2     terry gilliam
3         eric idle
4       terry jones
5     michael palin
dtype: object

Numérico:

In [12]:
monte.str.len()

0    14
1    11
2    13
3     9
4    11
5    13
dtype: int64

Booleano:

In [13]:
monte.str.startswith('T')

0    False
1    False
2     True
3    False
4     True
5    False
dtype: bool

Incluso otros tipos particulares, como listas:

In [14]:
monte.str.split()

0    [Graham, Chapman]
1       [John, Cleese]
2     [Terry, Gilliam]
3         [Eric, Idle]
4       [Terry, Jones]
5     [Michael, Palin]
dtype: object

### Métodos usando expresiones regulares

Además, hay varios métodos que nos permitirán trabajar con expresiones regulares, que son patrones que nos permitirán encontrar coincidencias en el texto, como buscar todos los números que aparezcan en un string, o si una cadena empieza con un caracter en concreto. Estos métodos están basados en el módulo ``re``:

| Method | Description |
|--------|-------------|
| ``match()`` | Llama a ``re.match()`` para cada elemento, devolviendo un booleano. |
| ``extract()`` | Llama a ``re.match()`` para cada elemento, devolviendo los grupos de cadenas coincidentes.|
| ``findall()`` | Llama a ``re.findall()`` para cada elemento. |
| ``replace()`` | Reemplaza las ocurrencias del patrón por otro string. |
| ``contains()`` | Llama a ``re.search()`` para cada elemento, devolviendo un booleano. |
| ``count()`` | Cuenta las ocurrencias del patrón. |
| ``split()``   | Equivalente a ``str.split()``, pero acepta expresiones regulares. |
| ``rsplit()`` | Equivalente a ``str.rsplit()``, pero acepta expresiones regulares. |

Si bien es cierto que esto es una herramienta muy potente, meternos a fondo con las expresiones regulares se sale de lo que buscamos en este curso, por lo que dejaremos algún ejemplo sencillo y, en el caso de necesitar algo más complejo, recurriremos a la documentación. Si quieres un sitio web donde está muy bien explicado, te dejo aquí el [enlace](https://www.programaenpython.com/miscelanea/expresiones-regulares/).

Con estos métodos, podemos realizar una gran cantidad de operaciones interesantes.

Por ejemplo, podemos extraer el nombre de cada uno pidiendo un grupo contiguo de caracteres al comienzo de cada elemento:

In [23]:
monte.str.extract('([A-Za-z]+)', expand=False)

0     Graham
1       John
2      Terry
3       Eric
4      Terry
5    Michael
dtype: object

In [24]:
monte.str.extract('^([A-Za-z]+)')

Unnamed: 0,0
0,Graham
1,John
2,Terry
3,Eric
4,Terry
5,Michael


También podríamos extraer letras sueltas, como todas las ``a`` de cada nombre:

In [25]:
monte_a = monte.str.findall(r'^[TJ][a-z]+')
monte_a

0         []
1     [John]
2    [Terry]
3         []
4    [Terry]
5         []
dtype: object

In [26]:
monte_a = monte.str.findall(r'a')
monte_a

0    [a, a, a, a]
1              []
2             [a]
3              []
4              []
5          [a, a]
dtype: object

### Para pensar...

En vista de esto, ¿se te ocurre cómo podríamos extraer el número de ``a`` que tiene cada nombre? Podríamos usar el método ``apply`` para recorrer uno a uno los diferentes registros y hacer un recuento de los valores de cada lista:

In [27]:
monte.str.findall(r'a').apply(lambda x: len(x))

0    4
1    0
2    1
3    0
4    0
5    2
dtype: int64

Podríamos complicarlo un poco, añadiendo ciertas condiciones, como quedarnos con las vocales de los nombres:

In [16]:
monte_a = monte.str.findall(r'[aeiou]')
monte_a.apply(lambda x: len(x))

0    4
1    4
2    4
3    2
4    3
5    5
dtype: int64

O podríamos hacer algo más complicado, como buscar todso los nombres que empiecen y terminen con una consonante, haciendo uso de los comandos especiales de inicio de string (``^``) o fin de string (``$``), además del comdín que fincionará como cualqueir caracter (``*``) o el punto (``.``) que nos permitirá repetir tantas veces como sean el caracter que le indiquemos a continuación. Cbe destacar, que el acento circunflejo (``^``) al comienzo de algo definido entre corchetes (``[]``) significa negación:

In [17]:
monte.str.findall(r'^[A-Za-z].* [0-9]$')

0    []
1    []
2    []
3    []
4    []
5    []
dtype: object

In [18]:
monte.str.findall(r'^[^AEIOU].*[^aeiou]$')

0    [Graham Chapman]
1                  []
2     [Terry Gilliam]
3                  []
4       [Terry Jones]
5     [Michael Palin]
dtype: object

In [19]:
monte.str.findall(r'Palin$')

0         []
1         []
2         []
3         []
4         []
5    [Palin]
dtype: object

Como puedes ver, la posibilidad de utilizar expresiones regulares en nuestros tratamientos de datos abren un sinfín de posibilidades, auqneu ya te digo que no nos centraremos en ello como tal, sino que si necesitamos extraer algún patrón en concreto, nos dirigiremos a la documentación, ya que es un tema que puede llegar a ser muy complejo y variante, en función de lo que queramos obtener.

### Métodos misceláneos

Finalmente, también tenemos otros métodos que no podemos cuadrar en nignuna de los 2 puntos anteriores, lo que denominaremos métodso misceláneos, que nos posibilitan realizar otras operaciones:

| Method | Description |
|--------|-------------|
| ``get()`` | Devuelve cada elemento según su índice |
| ``slice()`` | Slice de cada elemento |
| ``slice_replace()`` | Reemplaza cada slice en cada elemento con el valor pasado |
| ``cat()``      | Concatena strings |
| ``repeat()`` | Repite valores |
| ``normalize()`` | Devuelve el Unicode de un string |
| ``pad()`` | Añade un espacio en blanco a la izquierda, derecha, o ambos lados de los strings |
| ``wrap()`` | Divida las cadenas largas en líneas con una longitud menor que el ancho determinado |
| ``join()`` | Une las cadenas de cada elemento de un ``Series`` con el separador indicado |
| ``get_dummies()`` | Extrae las variables dummy como un ``DataFrame`` (hace grupos con los valores) |

Las operaciones ``get()`` y ``slice()``, permiten el acceso vectorizado a elementos de cada matriz.

Por ejemplo, podemos obtener un slice de los 3 primeros caracteres de cada array usando ``str.slice(0, 3)``.

*Nota:* teniendo en mente cómo funcionaba el slicing de Python, esto sería equivalente a usar ``df.str[0:3]``

In [20]:
monte.str.slice(0, 3)

0    Gra
1    Joh
2    Ter
3    Eri
4    Ter
5    Mic
dtype: object

In [21]:
monte.str[0:3]

0    Gra
1    Joh
2    Ter
3    Eri
4    Ter
5    Mic
dtype: object

Indexar mediante ``df.str.get(i)`` y ``df.str[i]`` es bastante similar.

Los métodos ``get()`` y ``slice()`` se pueden combinar para acceder a los elementos de los arrays devueltos por ``split()``.

For example, para extraer el último nombre de cada entrada, podemos hacer lo sigueinte:

In [22]:
monte.str.split().str.get(-1)

0    Chapman
1     Cleese
2    Gilliam
3       Idle
4      Jones
5      Palin
dtype: object

Otro método que requiere un poco más de atención es el método `` get_dummies () ``.

Lo usaremos cuando nuestros datos tienen una columna que contiene algún tipo de indicador codificado.

Por ejemplo, podríamos tener un conjunto de datos que contenga información en forma de códigos (variables categóricas), como A = "nacido en España," B = "nacido en el extranjero," C = "le gusta la montaña," D = "le gustan los videojuegos":

In [23]:
full_monte = pd.DataFrame({'name': monte,
                           'info': ['B,C,D', 'B,D', 'A,C',
                                    'B,D', 'B,C', 'B,C,D']})
full_monte

Unnamed: 0,name,info
0,Graham Chapman,"B,C,D"
1,John Cleese,"B,D"
2,Terry Gilliam,"A,C"
3,Eric Idle,"B,D"
4,Terry Jones,"B,C"
5,Michael Palin,"B,C,D"


El métodp ``get_dummies()`` nos permite separar rápidamente en variables de un ``DataFrame`` estos indicadores puestos en forma de string:

In [27]:
full_monte['info'].str.get_dummies(",")

Unnamed: 0,A,B,C,D
0,0,1,1,1
1,0,1,0,1
2,1,0,1,0
3,0,1,0,1
4,0,1,1,0
5,0,1,1,1


In [25]:
full_monte['name'].str.get_dummies()

Unnamed: 0,Eric Idle,Graham Chapman,John Cleese,Michael Palin,Terry Gilliam,Terry Jones
0,0,1,0,0,0,0
1,0,0,1,0,0,0
2,0,0,0,0,1,0
3,1,0,0,0,0,0
4,0,0,0,0,0,1
5,0,0,0,1,0,0


Con esto ganamos mucha flexibilidad a la hora de estudiar y procesar nuestros conjuntos de datos con strings.


## Ejercicios:

Léete el fichero "FIFA20_mod.csv" y realiza algunas operaciones:
1. Créate una columna con el nombre del "club" en mayúsculas. Comprueba que realmente has cambiado el nombre a mayúsculas en otra columna utilizando el método adecuado (equivalente en Python)
2. Créate otra columna nueva con el "team_position" en minúsculas y comprueba, como has hecho antes, que realmente está en minúsculas.
3. Si te fijas, los nombres "long_name" han sufrido modificaciones en este fichero. Utiliza alguna de las funciones comunes entre Pandas y Python que hemos visto para ponerlo todo de modo que la primera letra de cada palabra sea mayúscula, y el resto minúsculas (hay un método concreto para eso).
4. Resulta que hay otro cambio más respecto al fichero original, y es que la columna 'overall' no es de tipo entero, ya que se han colado un punto y unos espacios delante de su valor. Guárdate los valores de la columna en una varaible (que será de tipo ``Series``) y quítale el punto con el método ``replace``. A continuación, al objeto ``Series`` que devuelve esta función, elimínale los espacios de la izquierda (que son los que estaban entre el punto y el número). Para ello busca la función en la tabla de funciones de Pandas similares a Python. Tras ello, comprueba que son dígitos (con una de las funciones de esa misma tabla). El resultado deberá ser un ``Series`` con valores a ``True`` o ``False`` en función de que sean dígitos o no. Recuerda que para acceder a estas funciones debemos poner el ``.str.`` entre nuestro objeto ``Series`` y la función.
5. Tras hacer el ejercicio anterior, te darás cuenta de que no todos son dígitos (en realidad, ninguno lo será). Muestra por pantalla el primer elemento a ver si te da una pista de lo que está ocurriendo. Cuando identifiques qué tiene de más que le hace no ser un dígito, elimínalo con la función correspondiente y vuelve a comprobar si ya está solucionado el problema con la función que has utilizado antes.
6. Volvamos sobre los nombres de los futbolistas. Utiliza una expresión regular para obtener un objeto ``Series`` con las vocales de los nombres ("long_name") de cada uno de los futbolistas. Haz el recuento de vocales en otro objeto ``Series``.
7. Utiliza una de las funciones que hemos visto para crear otro ``DataFrame`` con diferentes columnas que indiquen el "team_position" de cada jugador.

In [26]:
df = pd.read_csv("FIFA20_mod.csv")
df.head()

Unnamed: 0,short_name,long_name,dob,club,overall,potential,value_eur,wage_eur,team_position,preferred_foot,influencer
0,L. Messi,lionel andrés messi cuccittini,1987-06-24,FC Barcelona,. 94,94,95500000,565000,RW,Left,True
1,Cristiano Ronaldo,CRISTIANO RONALDO DOS SANTOS AVEIRO,1985-02-05,Juventus,. 93,93,58500000,405000,LW,Right,True
2,Neymar Jr,NEYMAR DA SILVA SANTOS JUNIOR,1992-02-05,Paris Saint-Germain,. 92,92,105500000,290000,CAM,Right,True
3,J. Oblak,Jan oblak,1993-01-07,Atlético Madrid,. 91,93,77500000,125000,GK,Right,False
4,E. Hazard,Eden hazard,1991-01-07,Real Madrid,. 91,91,90000000,470000,LW,Right,True


In [92]:
# 1. 
df['club_mayus'] = df['club'].str.upper() 
df['club_mayus'].str.isupper()

0        True
1        True
2        True
3        True
4        True
         ... 
18273    True
18274    True
18275    True
18276    True
18277    True
Name: club_mayus, Length: 18278, dtype: bool

In [87]:
# 2. 
df['team_position_minus'] = df['team_position'].str.lower() 
# df[['team_position', 'team_position_minus']]
df[df['team_position_minus'].str.islower()]['team_position'].unique()

array([nan], dtype=object)

In [91]:
df[df['team_position_minus'].str.islower().isnull()].index
df.loc[327]

short_name                         E. Schetino
long_name              EGIDIO MAESTRE SCHETINO
dob                                 1992-02-29
club                                   Uruguay
overall                                . 82   
potential                                   82
value_eur                                    0
wage_eur                                     0
team_position                              NaN
preferred_foot                           Right
influencer                               False
club_mayus                             URUGUAY
team_position_minus                        NaN
Name: 327, dtype: object

In [93]:
# 3. 
df['long_name'] = df['long_name'].str.title()
df['long_name']

0             Lionel Andrés Messi Cuccittini
1        Cristiano Ronaldo Dos Santos Aveiro
2              Neymar Da Silva Santos Junior
3                                  Jan Oblak
4                                Eden Hazard
                        ...                 
18273                                     邵帅
18274                           Mingjie Xiao
18275                                     张威
18276                                    汪海健
18277                                    潘喜明
Name: long_name, Length: 18278, dtype: object

In [95]:
# monte.apply(lambda x: ' '.join([palabra[0].upper() + palabra[1:] for palabra in x.split()]))

In [121]:
# 4 y 5. 
ser4 = df['overall']
ser4 = ser4.str.replace(".", "").str.lstrip()
ser4.str.isdigit()
ser4.iloc[0]
ser5 = ser4.str.rstrip()
ser5.str.isdigit()
ser5.iloc[0]


'94'

In [123]:
ser4 = df['overall']
ser4 = ser4.str.replace(".", "").str.strip()
ser4.str.isdigit()
ser4.iloc[0]

'94'

In [124]:
ser4 = df['overall']
ser4 = ser4.str.replace(".", "").astype(int)
ser4

0        94
1        93
2        92
3        91
4        91
         ..
18273    48
18274    48
18275    48
18276    48
18277    48
Name: overall, Length: 18278, dtype: int32

In [129]:
df['overall'].apply(lambda x: int(x.replace(".", "")))

0        94
1        93
2        92
3        91
4        91
         ..
18273    48
18274    48
18275    48
18276    48
18277    48
Name: overall, Length: 18278, dtype: int64

In [196]:
# 6. 
df['vocales'] = df['long_name'].str.findall(r'[aeiouAEIOU]')
# df[['long_name', 'vocales']]
vocales.apply(lambda x: len(x))

0        17
1        17
2        15
3         5
4         6
         ..
18273     2
18274     5
18275     2
18276     3
18277     3
Name: long_name, Length: 18278, dtype: int64

In [183]:
consonantes = vocales = df['long_name'].str.findall(r'[^aeiouAEIOU ]')
consonantes.apply(lambda x: len(x))
consonantes

0        [L, n, l, n, d, r, é, s, M, s, s, C, c, c, t, ...
1        [C, r, s, t, n, R, n, l, d, D, s, S, n, t, s, ...
2            [N, y, m, r, D, S, l, v, S, n, t, s, J, n, r]
3                                          [J, n, b, l, k]
4                                       [d, n, H, z, r, d]
                               ...                        
18273                                               [邵, 帅]
18274                                      [M, n, g, j, X]
18275                                               [张, 威]
18276                                            [汪, 海, 健]
18277                                            [潘, 喜, 明]
Name: long_name, Length: 18278, dtype: object

In [190]:
import re

ser7 = df['long_name'].str.findall('[aeiou]', flags=re.IGNORECASE)
ser7
# ser7.apply(lambda x: len(x))

0                    [i, o, e, A, e, i, u, i, i, i]
1        [i, i, a, o, o, a, o, o, a, o, A, e, i, o]
2                    [e, a, a, i, a, a, o, u, i, o]
3                                         [a, O, a]
4                                      [E, e, a, a]
                            ...                    
18273                                            []
18274                            [i, i, e, i, a, o]
18275                                            []
18276                                            []
18277                                            []
Name: long_name, Length: 18278, dtype: object

In [192]:
import re

ser7 = df['long_name'].str.lower().str.findall('[aeiou]')
ser7
# ser7.apply(lambda x: len(x))

0                    [i, o, e, a, e, i, u, i, i, i]
1        [i, i, a, o, o, a, o, o, a, o, a, e, i, o]
2                    [e, a, a, i, a, a, o, u, i, o]
3                                         [a, o, a]
4                                      [e, e, a, a]
                            ...                    
18273                                            []
18274                            [i, i, e, i, a, o]
18275                                            []
18276                                            []
18277                                            []
Name: long_name, Length: 18278, dtype: object

In [213]:
# 7. 
df7 = df.set_index("long_name")
df7 = df7['team_position'].str.get_dummies()
df7

Unnamed: 0_level_0,CAM,CB,CDM,CF,CM,GK,LAM,LB,LCB,LCM,...,RCM,RDM,RES,RF,RM,RS,RW,RWB,ST,SUB
long_name,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1,Unnamed: 15_level_1,Unnamed: 16_level_1,Unnamed: 17_level_1,Unnamed: 18_level_1,Unnamed: 19_level_1,Unnamed: 20_level_1,Unnamed: 21_level_1
Lionel Andrés Messi Cuccittini,0,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,1,0,0,0
Cristiano Ronaldo Dos Santos Aveiro,0,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
Neymar Da Silva Santos Junior,1,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
Jan Oblak,0,0,0,0,0,1,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
Eden Hazard,0,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
邵帅,0,0,0,0,0,0,0,0,0,0,...,0,0,1,0,0,0,0,0,0,0
Mingjie Xiao,0,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,1
张威,0,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,1
汪海健,0,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,1


In [220]:
df7 = df.pivot_table(index=['long_name'], columns=['team_position'],
                    aggfunc={'team_position':'count'}).fillna(0).astype(int)
df7

Unnamed: 0_level_0,team_position,team_position,team_position,team_position,team_position,team_position,team_position,team_position,team_position,team_position,team_position,team_position,team_position,team_position,team_position,team_position,team_position,team_position,team_position,team_position,team_position
team_position,CAM,CB,CDM,CF,CM,GK,LAM,LB,LCB,LCM,...,RCM,RDM,RES,RF,RM,RS,RW,RWB,ST,SUB
long_name,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2,Unnamed: 7_level_2,Unnamed: 8_level_2,Unnamed: 9_level_2,Unnamed: 10_level_2,Unnamed: 11_level_2,Unnamed: 12_level_2,Unnamed: 13_level_2,Unnamed: 14_level_2,Unnamed: 15_level_2,Unnamed: 16_level_2,Unnamed: 17_level_2,Unnamed: 18_level_2,Unnamed: 19_level_2,Unnamed: 20_level_2,Unnamed: 21_level_2
A. Benjamin Chiamuloira Paes,0,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
A. Pimenta Flora Pimenta,0,0,0,0,0,0,0,0,0,0,...,0,0,1,0,0,0,0,0,0,0
Aapo Halme,0,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,1
Aaron Lennon,0,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,1
Aaron Amadi-Holloway,0,0,0,0,0,0,0,0,0,0,...,0,0,0,0,1,0,0,0,0,0
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
황순민 金胜敏,0,0,0,0,0,0,0,0,0,0,...,1,0,0,0,0,0,0,0,0,0
황의조 Ui Jo Hwang,0,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,1
황일수 黄一秀,0,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
황현수 黄贤秀,0,0,0,0,0,0,0,0,1,0,...,0,0,0,0,0,0,0,0,0,0


In [224]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 18278 entries, 0 to 18277
Data columns (total 11 columns):
 #   Column          Non-Null Count  Dtype 
---  ------          --------------  ----- 
 0   short_name      18278 non-null  object
 1   long_name       18278 non-null  object
 2   dob             18278 non-null  object
 3   club            18278 non-null  object
 4   overall         18278 non-null  object
 5   potential       18278 non-null  int64 
 6   value_eur       18278 non-null  int64 
 7   wage_eur        18278 non-null  int64 
 8   team_position   18038 non-null  object
 9   preferred_foot  18278 non-null  object
 10  influencer      18278 non-null  bool  
dtypes: bool(1), int64(3), object(7)
memory usage: 1.4+ MB


In [228]:
df7 = df['team_position'].str.get_dummies()
df7_join = df.join(df7)
df7_join

Unnamed: 0,short_name,long_name,dob,club,overall,potential,value_eur,wage_eur,team_position,preferred_foot,...,RCM,RDM,RES,RF,RM,RS,RW,RWB,ST,SUB
0,L. Messi,lionel andrés messi cuccittini,1987-06-24,FC Barcelona,. 94,94,95500000,565000,RW,Left,...,0,0,0,0,0,0,1,0,0,0
1,Cristiano Ronaldo,CRISTIANO RONALDO DOS SANTOS AVEIRO,1985-02-05,Juventus,. 93,93,58500000,405000,LW,Right,...,0,0,0,0,0,0,0,0,0,0
2,Neymar Jr,NEYMAR DA SILVA SANTOS JUNIOR,1992-02-05,Paris Saint-Germain,. 92,92,105500000,290000,CAM,Right,...,0,0,0,0,0,0,0,0,0,0
3,J. Oblak,Jan oblak,1993-01-07,Atlético Madrid,. 91,93,77500000,125000,GK,Right,...,0,0,0,0,0,0,0,0,0,0
4,E. Hazard,Eden hazard,1991-01-07,Real Madrid,. 91,91,90000000,470000,LW,Right,...,0,0,0,0,0,0,0,0,0,0
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
18273,Shao Shuai,邵帅,1997-03-10,Beijing Renhe FC,. 48,56,40000,2000,RES,Right,...,0,0,1,0,0,0,0,0,0,0
18274,Xiao Mingjie,MINGJIE XIAO,1997-01-01,Shanghai SIPG FC,. 48,56,40000,2000,SUB,Right,...,0,0,0,0,0,0,0,0,0,1
18275,Zhang Wei,张威,2000-05-16,Hebei China Fortune FC,. 48,56,40000,1000,SUB,Right,...,0,0,0,0,0,0,0,0,0,1
18276,Wang Haijian,汪海健,2000-08-02,Shanghai Greenland Shenhua FC,. 48,54,40000,1000,SUB,Right,...,0,0,0,0,0,0,0,0,0,1


### Ejericio 2: Combinando conceptos

1. Utiliza una de las funciones de Python que tiene Pandas para el tratamimento de strings para obtener todos aquellos clubs que tienen "FC" en el nombre. Obtén una lista con los equipos únicos.
2. Realiza el mismo ejercicio pero usando la función ``findall`` y la expresión regular que sea conveniente. Esto te devolverá un ``Series`` con listas, a partir de él, obtén otro ``Series`` booleano de la misma longitud que te diga si la cadena está vacía o no. Tras ello, utiliza este ``Series`` para filtrar la columna 'club' original, y quédate con aquellos que tengan 'FC' en el nombre. La variable final no deberá tener duplicados (si uno aparece 2 veces, quédate con 1, no deseches los 2)
3. Repite el ejercicio 2 pero para aquellos equipos que empiecen por 'FC'
4. Repite el paso 2 para aquellos equipos que terminen por 'FC'

In [262]:
df['club_mask'] = df['club'].str.contains('FC')
df[['club_mask', 'club']]

Unnamed: 0,club_mask,club
0,True,FC Barcelona
1,False,Juventus
2,False,Paris Saint-Germain
3,False,Atlético Madrid
4,False,Real Madrid
...,...,...
18273,True,Beijing Renhe FC
18274,True,Shanghai SIPG FC
18275,True,Hebei China Fortune FC
18276,True,Shanghai Greenland Shenhua FC


In [265]:
# 1. 
clubs = df[df['club'].str.contains('FC')]
clubs['club'].drop_duplicates()
clubs['club'].unique()


array(['FC Barcelona', 'FC Bayern München', 'FC Porto',
       'Dalian YiFang FC', 'Guangzhou Evergrande Taobao FC',
       'Shanghai SIPG FC', 'Jiangsu Suning FC', 'Los Angeles FC',
       'Sevilla FC', 'Shanghai Greenland Shenhua FC', 'PFC CSKA Moscow',
       'Beijing Sinobo Guoan FC', '1. FC Köln', 'Guangzhou R&F FC',
       'FC Girondins de Bordeaux', 'FC Nantes', 'FC Schalke 04',
       'Hebei China Fortune FC', 'Toronto FC', 'Beijing Renhe FC',
       'Girona FC', 'Shenzhen FC', 'FC Augsburg', 'FC København',
       'Stade Rennais FC', 'Royal Antwerp FC', 'Tianjin TEDA FC',
       'Tianjin Quanjian FC', 'Seattle Sounders FC',
       'Shandong Luneng TaiShan FC', 'FC Red Bull Salzburg',
       '1. FC Union Berlin', 'Chongqing Dangdai Lifan FC SWM Team',
       'FC Utrecht', 'FC Basel 1893', 'Rangers FC', 'Western United FC',
       'New York City FC', 'Minnesota United FC', 'FC Groningen',
       'Junior FC', 'Ettifaq FC', 'Avaí FC', '1. FC Nürnberg', 'FC Metz',
       'FC Midtjy

In [271]:
df['club_rg'] = df['club'].str.find('FC')
df[['club_rg', 'club']]

Unnamed: 0,club_rg,club
0,0,FC Barcelona
1,-1,Juventus
2,-1,Paris Saint-Germain
3,-1,Atlético Madrid
4,-1,Real Madrid
...,...,...
18273,14,Beijing Renhe FC
18274,14,Shanghai SIPG FC
18275,20,Hebei China Fortune FC
18276,27,Shanghai Greenland Shenhua FC


In [270]:
mask = df['club'].str.find('FC').apply(lambda x: x!=-1)
df[mask]['club'].unique()

array(['FC Barcelona', 'FC Bayern München', 'FC Porto',
       'Dalian YiFang FC', 'Guangzhou Evergrande Taobao FC',
       'Shanghai SIPG FC', 'Jiangsu Suning FC', 'Los Angeles FC',
       'Sevilla FC', 'Shanghai Greenland Shenhua FC', 'PFC CSKA Moscow',
       'Beijing Sinobo Guoan FC', '1. FC Köln', 'Guangzhou R&F FC',
       'FC Girondins de Bordeaux', 'FC Nantes', 'FC Schalke 04',
       'Hebei China Fortune FC', 'Toronto FC', 'Beijing Renhe FC',
       'Girona FC', 'Shenzhen FC', 'FC Augsburg', 'FC København',
       'Stade Rennais FC', 'Royal Antwerp FC', 'Tianjin TEDA FC',
       'Tianjin Quanjian FC', 'Seattle Sounders FC',
       'Shandong Luneng TaiShan FC', 'FC Red Bull Salzburg',
       '1. FC Union Berlin', 'Chongqing Dangdai Lifan FC SWM Team',
       'FC Utrecht', 'FC Basel 1893', 'Rangers FC', 'Western United FC',
       'New York City FC', 'Minnesota United FC', 'FC Groningen',
       'Junior FC', 'Ettifaq FC', 'Avaí FC', '1. FC Nürnberg', 'FC Metz',
       'FC Midtjy

In [278]:
# 2. 
df1 = df['club'].str.findall('\w*FC\w*')

lista= []

for i in df1:
    if len(i)==0:
        lista.append(False)
    else:
        lista.append(True)
        
df[lista]['club'].unique()

array(['FC Barcelona', 'FC Bayern München', 'FC Porto',
       'Dalian YiFang FC', 'Guangzhou Evergrande Taobao FC',
       'Shanghai SIPG FC', 'Jiangsu Suning FC', 'Los Angeles FC',
       'Sevilla FC', 'Shanghai Greenland Shenhua FC', 'PFC CSKA Moscow',
       'Beijing Sinobo Guoan FC', '1. FC Köln', 'Guangzhou R&F FC',
       'FC Girondins de Bordeaux', 'FC Nantes', 'FC Schalke 04',
       'Hebei China Fortune FC', 'Toronto FC', 'Beijing Renhe FC',
       'Girona FC', 'Shenzhen FC', 'FC Augsburg', 'FC København',
       'Stade Rennais FC', 'Royal Antwerp FC', 'Tianjin TEDA FC',
       'Tianjin Quanjian FC', 'Seattle Sounders FC',
       'Shandong Luneng TaiShan FC', 'FC Red Bull Salzburg',
       '1. FC Union Berlin', 'Chongqing Dangdai Lifan FC SWM Team',
       'FC Utrecht', 'FC Basel 1893', 'Rangers FC', 'Western United FC',
       'New York City FC', 'Minnesota United FC', 'FC Groningen',
       'Junior FC', 'Ettifaq FC', 'Avaí FC', '1. FC Nürnberg', 'FC Metz',
       'FC Midtjy

In [282]:
df[df['club'].str.findall('\w*FC\w*').apply(lambda x: len(x)!=0)]['club'].unique()

array(['FC Barcelona', 'FC Bayern München', 'FC Porto',
       'Dalian YiFang FC', 'Guangzhou Evergrande Taobao FC',
       'Shanghai SIPG FC', 'Jiangsu Suning FC', 'Los Angeles FC',
       'Sevilla FC', 'Shanghai Greenland Shenhua FC', 'PFC CSKA Moscow',
       'Beijing Sinobo Guoan FC', '1. FC Köln', 'Guangzhou R&F FC',
       'FC Girondins de Bordeaux', 'FC Nantes', 'FC Schalke 04',
       'Hebei China Fortune FC', 'Toronto FC', 'Beijing Renhe FC',
       'Girona FC', 'Shenzhen FC', 'FC Augsburg', 'FC København',
       'Stade Rennais FC', 'Royal Antwerp FC', 'Tianjin TEDA FC',
       'Tianjin Quanjian FC', 'Seattle Sounders FC',
       'Shandong Luneng TaiShan FC', 'FC Red Bull Salzburg',
       '1. FC Union Berlin', 'Chongqing Dangdai Lifan FC SWM Team',
       'FC Utrecht', 'FC Basel 1893', 'Rangers FC', 'Western United FC',
       'New York City FC', 'Minnesota United FC', 'FC Groningen',
       'Junior FC', 'Ettifaq FC', 'Avaí FC', '1. FC Nürnberg', 'FC Metz',
       'FC Midtjy

In [283]:
# 3. 
df[df['club'].str.findall('^FC').apply(lambda x: len(x)!=0)]['club'].unique()

array(['FC Barcelona', 'FC Bayern München', 'FC Porto',
       'FC Girondins de Bordeaux', 'FC Nantes', 'FC Schalke 04',
       'FC Augsburg', 'FC København', 'FC Red Bull Salzburg',
       'FC Utrecht', 'FC Basel 1893', 'FC Groningen', 'FC Metz',
       'FC Midtjylland', 'FC Sion', 'FC Tokyo', 'FCSB (Steaua)',
       'FC Lorient', 'FC Twente', 'FC St. Pauli', 'FC Dallas',
       'FC Cincinnati', 'FC Zürich', 'FC Viitorul', 'FC Lugano',
       'FC Paços de Ferreira', 'FC Seoul', 'FC Nordsjælland', 'FC Thun',
       'FC Juárez', 'FC Ingolstadt 04', 'FC Emmen', 'FC Erzgebirge Aue',
       'FC Luzern', 'FC Sochaux-Montbéliard', 'FC Botoşani',
       'FC St. Gallen', 'FC Admira Wacker Mödling', 'FC Hansa Rostock',
       'FC Hermannstadt', 'FC Würzburger Kickers', 'FC Chambly Oise',
       'FC Voluntari', 'FC Carl Zeiss Jena'], dtype=object)

In [284]:
# 4. 
df[df['club'].str.findall('FC$').apply(lambda x: len(x)!=0)]['club'].unique()

array(['Dalian YiFang FC', 'Guangzhou Evergrande Taobao FC',
       'Shanghai SIPG FC', 'Jiangsu Suning FC', 'Los Angeles FC',
       'Sevilla FC', 'Shanghai Greenland Shenhua FC',
       'Beijing Sinobo Guoan FC', 'Guangzhou R&F FC',
       'Hebei China Fortune FC', 'Toronto FC', 'Beijing Renhe FC',
       'Girona FC', 'Shenzhen FC', 'Stade Rennais FC', 'Royal Antwerp FC',
       'Tianjin TEDA FC', 'Tianjin Quanjian FC', 'Seattle Sounders FC',
       'Shandong Luneng TaiShan FC', 'Rangers FC', 'Western United FC',
       'New York City FC', 'Minnesota United FC', 'Junior FC',
       'Ettifaq FC', 'Avaí FC', 'Moreirense FC', 'Boavista FC',
       'Sydney FC', 'Al Ain FC', 'Henan Jianye FC', 'Panathinaikos FC',
       'Puebla FC', 'Daegu FC', 'Rio Ave FC', 'Millonarios FC',
       'Paris FC', 'Servette FC', 'Valenciennes FC', 'Ulsan Hyundai FC',
       'Gil Vicente FC', 'Randers FC', 'Vancouver Whitecaps FC',
       'Gyeongnam FC', 'Melbourne City FC', 'Damac FC', 'Envigado FC',
       