In [None]:
import pandas as pd

In [None]:
df = pd.read_csv("anime.csv")

Revisemos nuevamente las columnas de nuestro dataframe

In [None]:
df.columns

Index(['MAL_ID', 'Name', 'Score', 'Genres', 'English name', 'Japanese name',
       'Type', 'Episodes', 'Aired', 'Premiered', 'Producers', 'Licensors',
       'Studios', 'Source', 'Duration', 'Rating', 'Ranked', 'Popularity',
       'Members', 'Favorites', 'Watching', 'Completed', 'On-Hold', 'Dropped',
       'Plan to Watch', 'Score-10', 'Score-9', 'Score-8', 'Score-7', 'Score-6',
       'Score-5', 'Score-4', 'Score-3', 'Score-2', 'Score-1'],
      dtype='object')

Mi objetivo es contar la cantidad de series diferentes que hay asociadas a cada genero de anime. Con eso en mente, hay columnas que bien podria omitir, tanto por simplicidad para leer como para operar:

In [None]:
df_original = df
df = df[["MAL_ID","Name","Genres"]]

df

Unnamed: 0,MAL_ID,Name,Genres
0,1,Cowboy Bebop,"Action, Adventure, Comedy, Drama, Sci-Fi, Space"
1,5,Cowboy Bebop: Tengoku no Tobira,"Action, Drama, Mystery, Sci-Fi, Space"
2,6,Trigun,"Action, Sci-Fi, Adventure, Comedy, Drama, Shounen"
3,7,Witch Hunter Robin,"Action, Mystery, Police, Supernatural, Drama, ..."
4,8,Bouken Ou Beet,"Adventure, Fantasy, Shounen, Supernatural"
...,...,...,...
17557,48481,Daomu Biji Zhi Qinling Shen Shu,"Adventure, Mystery, Supernatural"
17558,48483,Mieruko-chan,"Comedy, Horror, Supernatural"
17559,48488,Higurashi no Naku Koro ni Sotsu,"Mystery, Dementia, Horror, Psychological, Supe..."
17560,48491,Yama no Susume: Next Summit,"Adventure, Slice of Life, Comedy"


Por ahora no me interesa ni sirve mucha mas informacion, pero por las dudas me guardo el dataframe original para despues. En este caso simplemente podria volver a leerlo, en otros casos, puede que tenga que volver a procesarlo todo. Es en el segundo caso donde nos puede servir trabajar sobre con una copia, al utilizar el operador `[]` estamos **copiando** eñ dataframe en uno nuevo con unicamente los datos que pertenezcan al filtro (ya sean filas o columnas). 

# Transformando los generos

Para poder separar los generos de cada serie, necesito primero pasar la cadena a una lista. Entremedio, proceso los generos para eliminar los espacios a los costados y las mayusculas, para evitar que un genero se separe en multiples.

Podemos hacer todo esto con un map y una funcion lambda como la vez pasada:

In [None]:
df.Genres.map(lambda x: [ y.strip().lower() for y in x.split(",")])

0        [action, adventure, comedy, drama, sci-fi, space]
1                  [action, drama, mystery, sci-fi, space]
2        [action, sci-fi, adventure, comedy, drama, sho...
3        [action, mystery, police, supernatural, drama,...
4              [adventure, fantasy, shounen, supernatural]
                               ...                        
17557                   [adventure, mystery, supernatural]
17558                       [comedy, horror, supernatural]
17559    [mystery, dementia, horror, psychological, sup...
17560                   [adventure, slice of life, comedy]
17561                                    [action, fantasy]
Name: Genres, Length: 17562, dtype: object

El resultado de aplicarle `.map` a una serie, es otra serie. En este caso la serie es una serie de 'objects' porque es una columna de listas. 

En este caso, vamos a crear una nueva columna en nuestro dataframe con los datos de la serie creada. En este caso hacemos una nueva columna para tener como referencia los datos originales, pero bien se podria sobreescribir la columna original para optimizar el uso de espacio. Siempre que se vaya a agregar una columna hay que utilizar `[]` (se puede utilizar `.` pero esta fuertemente desaconsejado).

In [None]:
df["generos"] = df.Genres.map(lambda x: [ y.strip().lower() for y in x.split(",")])
df.head(20)

A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  df["generos"] = df.Genres.map(lambda x: [ y.strip().lower() for y in x.split(",")])


Unnamed: 0,MAL_ID,Name,Genres,generos
0,1,Cowboy Bebop,"Action, Adventure, Comedy, Drama, Sci-Fi, Space","[action, adventure, comedy, drama, sci-fi, space]"
1,5,Cowboy Bebop: Tengoku no Tobira,"Action, Drama, Mystery, Sci-Fi, Space","[action, drama, mystery, sci-fi, space]"
2,6,Trigun,"Action, Sci-Fi, Adventure, Comedy, Drama, Shounen","[action, sci-fi, adventure, comedy, drama, sho..."
3,7,Witch Hunter Robin,"Action, Mystery, Police, Supernatural, Drama, ...","[action, mystery, police, supernatural, drama,..."
4,8,Bouken Ou Beet,"Adventure, Fantasy, Shounen, Supernatural","[adventure, fantasy, shounen, supernatural]"
5,15,Eyeshield 21,"Action, Sports, Comedy, Shounen","[action, sports, comedy, shounen]"
6,16,Hachimitsu to Clover,"Comedy, Drama, Josei, Romance, Slice of Life","[comedy, drama, josei, romance, slice of life]"
7,17,Hungry Heart: Wild Striker,"Slice of Life, Comedy, Sports, Shounen","[slice of life, comedy, sports, shounen]"
8,18,Initial D Fourth Stage,"Action, Cars, Sports, Drama, Seinen","[action, cars, sports, drama, seinen]"
9,19,Monster,"Drama, Horror, Mystery, Police, Psychological,...","[drama, horror, mystery, police, psychological..."


Con los datos en una lista, ahora puedo aplicar `explode` para que cada valor se vuelva una fila y se una a los datos anteriores

In [None]:
expandido = df.explode("generos")
expandido

Unnamed: 0,MAL_ID,Name,Genres,generos
0,1,Cowboy Bebop,"Action, Adventure, Comedy, Drama, Sci-Fi, Space",action
0,1,Cowboy Bebop,"Action, Adventure, Comedy, Drama, Sci-Fi, Space",adventure
0,1,Cowboy Bebop,"Action, Adventure, Comedy, Drama, Sci-Fi, Space",comedy
0,1,Cowboy Bebop,"Action, Adventure, Comedy, Drama, Sci-Fi, Space",drama
0,1,Cowboy Bebop,"Action, Adventure, Comedy, Drama, Sci-Fi, Space",sci-fi
...,...,...,...,...
17560,48491,Yama no Susume: Next Summit,"Adventure, Slice of Life, Comedy",adventure
17560,48491,Yama no Susume: Next Summit,"Adventure, Slice of Life, Comedy",slice of life
17560,48491,Yama no Susume: Next Summit,"Adventure, Slice of Life, Comedy",comedy
17561,48492,Scarlet Nexus,"Action, Fantasy",action


Notar que **School Rumble** esta asociado a 4 generos distintos, por ende ahora en nuestro nuevo DataFrame, va a aparecer 4 veces, cada una asociada a uno de los generos que le corresponde en la columna "genero".

Ya que dejamos los nombres, podemos utilizarlos para indexar nuestro dataframe y asi poder revisar datos que conozcamos mas facilmente con `loc`

In [None]:
expandido.set_index("Name").loc["School Rumble"]

Unnamed: 0_level_0,MAL_ID,Genres,generos
Name,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
School Rumble,24,"Comedy, Romance, School, Shounen",comedy
School Rumble,24,"Comedy, Romance, School, Shounen",romance
School Rumble,24,"Comedy, Romance, School, Shounen",school
School Rumble,24,"Comedy, Romance, School, Shounen",shounen


Nota: como solo lo voy a utilizar una vez, lo dejo asi, pero puede serme util ya guardarme el dataframe con el nuevo indice.

Igual que antes, normalizo los nombres pasandolos todos a minusculas para evitar que haya alguna clase de problema a futuro

In [None]:
expandido["name"] = expandido.Name.map(lambda x:x.lower())
expandido.head(20)

Unnamed: 0,MAL_ID,Name,Genres,generos,name
0,1,Cowboy Bebop,"Action, Adventure, Comedy, Drama, Sci-Fi, Space",action,cowboy bebop
0,1,Cowboy Bebop,"Action, Adventure, Comedy, Drama, Sci-Fi, Space",adventure,cowboy bebop
0,1,Cowboy Bebop,"Action, Adventure, Comedy, Drama, Sci-Fi, Space",comedy,cowboy bebop
0,1,Cowboy Bebop,"Action, Adventure, Comedy, Drama, Sci-Fi, Space",drama,cowboy bebop
0,1,Cowboy Bebop,"Action, Adventure, Comedy, Drama, Sci-Fi, Space",sci-fi,cowboy bebop
0,1,Cowboy Bebop,"Action, Adventure, Comedy, Drama, Sci-Fi, Space",space,cowboy bebop
1,5,Cowboy Bebop: Tengoku no Tobira,"Action, Drama, Mystery, Sci-Fi, Space",action,cowboy bebop: tengoku no tobira
1,5,Cowboy Bebop: Tengoku no Tobira,"Action, Drama, Mystery, Sci-Fi, Space",drama,cowboy bebop: tengoku no tobira
1,5,Cowboy Bebop: Tengoku no Tobira,"Action, Drama, Mystery, Sci-Fi, Space",mystery,cowboy bebop: tengoku no tobira
1,5,Cowboy Bebop: Tengoku no Tobira,"Action, Drama, Mystery, Sci-Fi, Space",sci-fi,cowboy bebop: tengoku no tobira


# Pivots

❗❗❗❗❗❗❗❗❗❗❗❗❗❗❗❗❗❗❗❗❗❗❗❗❗❗❗❗❗❗❗❗❗❗❗❗❗❗❗❗❗❗❗❗❗❗❗❗❗❗

Nota al lector: _Podria hacer un groupby generos y despues hacer un count unique para obtener el resultado que buscaba originalmente... pero no porque sino aca terminaria el notebook y no quiero buscar otro dataset con las propiedades de este, asi que seguime la corriente. Siempre podes como ejercicio cargar en un notebook nuevo el dataset e intentar llegar al resultado por ese camino._
❗❗❗❗❗❗❗❗❗❗❗❗❗❗❗❗❗❗❗❗❗❗❗❗❗❗❗❗❗❗❗❗❗❗❗❗❗❗❗❗❗❗❗❗❗❗❗❗❗❗


Podria servirme, tener una matiz con para cada serie, si es o no de determinado genero, esto me dejaria utilizando un loc, obtener facilmente esa informacion.

Para eso vamos a utilizar pivot porque cada serie solo deberia aparecer una unica vez asociada a un genero. Elegimos la columna de MAL_ID como valores porque en este caso es lo mismo, o tiene un valor (la serie es de ese genero) o es un nan (la serie no es de ese genero)

In [None]:
expandido.pivot("name","generos","MAL_ID")

ValueError: ignored

Pivot falla porque dice tener valores repetidos. Esto significa que existe **al menos** un par `nombre,genero` que aparece mas de una vez. Por precondicion no deberia ocurrir, porque las series no deberian repetirse y los generos que extrajimos son unicos. Este tipo de cosas nos hablan de que hay errores en el dataset (y nos demuestran que no se puede confiar ciegamente en nada, repito, **SIEMPRE HAY QUE REVISAR LOS DATOS, ES PARTE FUNDAMENTAL DEL PROCESO**



Si hubieramos utilizado pivot table, esto no hubiera ocurrido porque por defecto va a intentar promediar los valores (y al ser el id un numero entero) y no iba a fallar.

Probamos entonces utilizando pivot table, pero utilizando como funcion de agregacion count para contar los elementos y asi encontrar los pares series-genero que se repiten (sino no hubiera fallado pivot para empezar).

In [None]:
df_count = expandido.pivot_table(index="name",columns="generos",values="MAL_ID",aggfunc="count")
df_count

generos,action,adventure,cars,comedy,dementia,demons,drama,ecchi,fantasy,game,...,slice of life,space,sports,super power,supernatural,thriller,unknown,vampire,yaoi,yuri
name,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1,Unnamed: 15_level_1,Unnamed: 16_level_1,Unnamed: 17_level_1,Unnamed: 18_level_1,Unnamed: 19_level_1,Unnamed: 20_level_1,Unnamed: 21_level_1
"""0""",,,,,,,,,,,...,,,,,,,,,,
"""aesop"" no ohanashi yori: ushi to kaeru, yokubatta inu",,,,,,,,,,,...,,,,,,,,,,
"""bungaku shoujo"" kyou no oyatsu: hatsukoi",,,,1.0,,,,,1.0,,...,,,,,,,,,,
"""bungaku shoujo"" memoire",,,,,,,1.0,,,,...,,,,,,,,,,
"""bungaku shoujo"" movie",,,,,,,1.0,,,,...,,,,,,,,,,
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
zutto mae kara suki deshita.: kokuhaku jikkou iinkai - kinyoubi no ohayou,,,,,,,,,,,...,,,,,,,,,,
zutto suki datta,,,,,,,1.0,,,,...,,,,,,,,,,
üks uks,,,,,1.0,,,,,,...,,,,,,,,,,
ēldlive,1.0,,,,,,,,,,...,,1.0,,,,,,,,


Este dataframe nuevo, ahora tiene 1 si la serie esta asociada a un genero, o NaN en caso contrario. O eso seria lo esperable, pero ya sabemos de antemano que hay almenos algo que no e ni nan ni 1. Podemos probar obteniendo el maximo por columna:

In [None]:
df_count.max()

generos
action           2.0
adventure        1.0
cars             1.0
comedy           1.0
dementia         1.0
demons           2.0
drama            1.0
ecchi            1.0
fantasy          3.0
game             1.0
harem            1.0
hentai           1.0
historical       1.0
horror           1.0
josei            1.0
kids             2.0
magic            3.0
martial arts     1.0
mecha            1.0
military         1.0
music            1.0
mystery          1.0
parody           1.0
police           1.0
psychological    1.0
romance          1.0
samurai          1.0
school           3.0
sci-fi           1.0
seinen           1.0
shoujo           1.0
shoujo ai        1.0
shounen          1.0
shounen ai       1.0
slice of life    1.0
space            1.0
sports           1.0
super power      1.0
supernatural     1.0
thriller         1.0
unknown          1.0
vampire          1.0
yaoi             1.0
yuri             1.0
dtype: float64

Vemos que por ejemplo 'magic', tiene al menos una serie asociada 3 veces. Usemos un loc para buscar esos valores, porque a diferencia de los filtros que usabamos antes, con loc no voy a estar generando un nuevo dataframe:

In [None]:
df_count.loc[df_count["magic"] > 1]

generos,action,adventure,cars,comedy,dementia,demons,drama,ecchi,fantasy,game,...,slice of life,space,sports,super power,supernatural,thriller,unknown,vampire,yaoi,yuri
name,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1,Unnamed: 15_level_1,Unnamed: 16_level_1,Unnamed: 17_level_1,Unnamed: 18_level_1,Unnamed: 19_level_1,Unnamed: 20_level_1,Unnamed: 21_level_1
"maou gakuin no futekigousha: shijou saikyou no maou no shiso, tensei shite shison-tachi no gakkou e",2.0,,,,,2.0,,,3.0,,...,,,,,,,,,,


Si revisamos en el expandido, vemos que la serie aparece multiples veces, pero algunos de esos datos son inconsistentes. Esto nos puede llevar a pensar que el dataset esta mal, ya que no podemos con la informacion que tenemos saber el por que de los datos duplicados

Notar que si no me hubiera querido ahorrar un paso unos frames mas arriba, ahora no tendria que volver a setear el indice. 

In [None]:
expandido.set_index("name").loc["maou gakuin no futekigousha: shijou saikyou no maou no shiso, tensei shite shison-tachi no gakkou e"]

Unnamed: 0_level_0,MAL_ID,Name,Genres,generos
name,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
"maou gakuin no futekigousha: shijou saikyou no maou no shiso, tensei shite shison-tachi no gakkou e",40496,Maou Gakuin no Futekigousha: Shijou Saikyou no...,"Action, Demons, Magic, Fantasy, School",action
"maou gakuin no futekigousha: shijou saikyou no maou no shiso, tensei shite shison-tachi no gakkou e",40496,Maou Gakuin no Futekigousha: Shijou Saikyou no...,"Action, Demons, Magic, Fantasy, School",demons
"maou gakuin no futekigousha: shijou saikyou no maou no shiso, tensei shite shison-tachi no gakkou e",40496,Maou Gakuin no Futekigousha: Shijou Saikyou no...,"Action, Demons, Magic, Fantasy, School",magic
"maou gakuin no futekigousha: shijou saikyou no maou no shiso, tensei shite shison-tachi no gakkou e",40496,Maou Gakuin no Futekigousha: Shijou Saikyou no...,"Action, Demons, Magic, Fantasy, School",fantasy
"maou gakuin no futekigousha: shijou saikyou no maou no shiso, tensei shite shison-tachi no gakkou e",40496,Maou Gakuin no Futekigousha: Shijou Saikyou no...,"Action, Demons, Magic, Fantasy, School",school
"maou gakuin no futekigousha: shijou saikyou no maou no shiso, tensei shite shison-tachi no gakkou e",48417,Maou Gakuin no Futekigousha: Shijou Saikyou no...,"Magic, Fantasy, School",magic
"maou gakuin no futekigousha: shijou saikyou no maou no shiso, tensei shite shison-tachi no gakkou e",48417,Maou Gakuin no Futekigousha: Shijou Saikyou no...,"Magic, Fantasy, School",fantasy
"maou gakuin no futekigousha: shijou saikyou no maou no shiso, tensei shite shison-tachi no gakkou e",48417,Maou Gakuin no Futekigousha: Shijou Saikyou no...,"Magic, Fantasy, School",school
"maou gakuin no futekigousha: shijou saikyou no maou no shiso, tensei shite shison-tachi no gakkou e",48418,Maou Gakuin no Futekigousha: Shijou Saikyou no...,"Action, Demons, Magic, Fantasy, School",action
"maou gakuin no futekigousha: shijou saikyou no maou no shiso, tensei shite shison-tachi no gakkou e",48418,Maou Gakuin no Futekigousha: Shijou Saikyou no...,"Action, Demons, Magic, Fantasy, School",demons


Con esto, sabemos que tenemos que buscar las series que aparecen mas de una vez, pero para ello deberiamos agrupar y despues aplicar un count.

In [None]:
df.groupby("Name").agg({"MAL_ID":"count"})

Unnamed: 0_level_0,MAL_ID
Name,Unnamed: 1_level_1
"""0""",1
"""Aesop"" no Ohanashi yori: Ushi to Kaeru, Yokubatta Inu",1
"""Bungaku Shoujo"" Kyou no Oyatsu: Hatsukoi",1
"""Bungaku Shoujo"" Memoire",1
"""Bungaku Shoujo"" Movie",1
...,...
xxxHOLiC Rou,1
xxxHOLiC Shunmuki,1
Üks Uks,1
ēlDLIVE,1


No tiene mucho sentido hacer un segundo df con los counts para unirlo a los datos originales, entonces es mejor utilizar transform que ya nos genera los datos para incluir en el DataFrame utilizando la informacion que almacena el objeto Group

In [None]:
df["apariciones"] = df.groupby("Name").transform("count")["MAL_ID"]

A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  df["apariciones"] = df.groupby("Name").transform("count")["MAL_ID"]


Fijense que ya aca pandas nos da un warning. En este caso, estamos agregando una columna a df, pero df es una copia de `df_original` con menos columnas. Lo que nos dice pandas es: _"estos datos ya los tenes, te hiciste una copia con un par de columnas solo para agregarle un par de datos, hacelo sobre el original y no generes mugre de mas"_. Hasta ahora no hice nada con la copia que justifique haberla hecho, entonces tiene sentido el warning.

Volviendo, si eliminamos todos los invalidos, ahora podemos volver a hacer lo que hicimos al principio para llegar a aplicar pivot. En este caso no tengo forma de saber por que estan mas de una vez, y como no se como subsanar eso, descarto esos datos.

Aplicando la misma logica que antes, me hago una nueva columna con el valor que me diga si es un dato valido o no (hago una nueva columna, porque quiza mas adelante me sirve eso para otra cosa.

In [None]:
df["invalido"] = df.apariciones > 1

A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  df["invalido"] = df.apariciones > 1


In [None]:
df = df[~df.invalido]

In [None]:
df["generos"] = df.Genres.map(lambda x: [ y.strip().lower() for y in x.split(",")])
expandido = df.explode("generos")
expandido["name"] = expandido.Name.map(lambda x:x.lower())

A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  df["generos"] = df.Genres.map(lambda x: [ y.strip().lower() for y in x.split(",")])


Ahora si, antes de hacer el pivot vamos a pensar mejor que es lo que queremos obtener. Estamos buscando llegar a un DataFrame que para cada serie, tenga para cada uno de los generos si pertenece a ese o no. Como lo que vamos a querer que aparezca en mi nuevo DataFrame son valores booleanos, y sabiendo que en _expandido_ estan todos los pares serie-genero que son validos; puedo agregar una columna solo con True para que al generar el pivot me queden los valores True en los pares validos.

De la misma forma, sabemos que si en _expandido_ no aparece un determinado par serie-genero, el mismo es implicitamente False, entonces al pivot le puedo hacer un fillna por ese valor

In [None]:
expandido["t"] = True
serie_genero = expandido.pivot("name","generos","t")
serie_genero = serie_genero.fillna(False)
serie_genero

generos,action,adventure,cars,comedy,dementia,demons,drama,ecchi,fantasy,game,...,slice of life,space,sports,super power,supernatural,thriller,unknown,vampire,yaoi,yuri
name,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1,Unnamed: 15_level_1,Unnamed: 16_level_1,Unnamed: 17_level_1,Unnamed: 18_level_1,Unnamed: 19_level_1,Unnamed: 20_level_1,Unnamed: 21_level_1
"""0""",False,False,False,False,False,False,False,False,False,False,...,False,False,False,False,False,False,False,False,False,False
"""aesop"" no ohanashi yori: ushi to kaeru, yokubatta inu",False,False,False,False,False,False,False,False,False,False,...,False,False,False,False,False,False,False,False,False,False
"""bungaku shoujo"" kyou no oyatsu: hatsukoi",False,False,False,True,False,False,False,False,True,False,...,False,False,False,False,False,False,False,False,False,False
"""bungaku shoujo"" memoire",False,False,False,False,False,False,True,False,False,False,...,False,False,False,False,False,False,False,False,False,False
"""bungaku shoujo"" movie",False,False,False,False,False,False,True,False,False,False,...,False,False,False,False,False,False,False,False,False,False
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
zutto mae kara suki deshita.: kokuhaku jikkou iinkai - kinyoubi no ohayou,False,False,False,False,False,False,False,False,False,False,...,False,False,False,False,False,False,False,False,False,False
zutto suki datta,False,False,False,False,False,False,True,False,False,False,...,False,False,False,False,False,False,False,False,False,False
üks uks,False,False,False,False,True,False,False,False,False,False,...,False,False,False,False,False,False,False,False,False,False
ēldlive,True,False,False,False,False,False,False,False,False,False,...,False,True,False,False,False,False,False,False,False,False


Con este formato puedo obtener facilmente para cualquier serie si pertenece a un determinado genero. Y como puedo hacer eso, puedo utilizarlo para filtrar los otros DataFrame

In [None]:
serie_genero.loc["ēldlive","game"]

False

Con este formato ahora me puedo hacer una funcion generica que utilizando loc, me devuelva si una serie es o no de un determinado genero

In [None]:
def es_tipo(serie,tipo):
    return serie_genero.loc[serie,tipo]

Y eso lo podemos utilizar sobre el dataframe original para obtener las series que son de un determinado tipo de forma mas eficiente que haciendo un in sobre la lista. El resultado al que llegamos, si bien paso por muchas transformaciones, si al final voy a filtrar muchas mas veces el dataframe original por algun genero especifico, es mas eficiente de esta forma

In [None]:
df_original.loc[ df_original.Name.map( lambda x: es_tipo(x.lower(),"game"))]

KeyError: ignored

O bueno, podria si todos los datos estuvieran en el nuevo dataframe, pero sabemos que no porque limpie los que eran invalidos.

Tarea para el lector: Como esto no funciona, hacer:

* una funcion que intente obtener el valor del nuevo dataframe y sino que devuelva false (en caso de no existir)

* despues de la proxima clase, agregar los datos de si es invalido combinando los dos dataframes, el original y el que tiene los datos de invalidos.

* rehacer todo utilizando loc, para que el original tenga los datos de si es valido o invalido y poder hacer el filtrado anterior agregando que lo haga solo para los validos. 

In [None]:
expandido.loc[ expandido.name.map( lambda x: es_tipo(x,"game"))]

Unnamed: 0,MAL_ID,Name,Genres,apariciones,invalido,generos,name,t
29,48,.hack//Sign,"Game, Sci-Fi, Adventure, Mystery, Magic, Fantasy",1,False,game,.hack//sign,True
29,48,.hack//Sign,"Game, Sci-Fi, Adventure, Mystery, Magic, Fantasy",1,False,sci-fi,.hack//sign,True
29,48,.hack//Sign,"Game, Sci-Fi, Adventure, Mystery, Magic, Fantasy",1,False,adventure,.hack//sign,True
29,48,.hack//Sign,"Game, Sci-Fi, Adventure, Mystery, Magic, Fantasy",1,False,mystery,.hack//sign,True
29,48,.hack//Sign,"Game, Sci-Fi, Adventure, Mystery, Magic, Fantasy",1,False,magic,.hack//sign,True
...,...,...,...,...,...,...,...,...
17477,46488,Tai-Ari deshita.: Ojou-sama wa Kakutou Game na...,"Game, Comedy, School, Seinen, Shoujo Ai",1,False,seinen,tai-ari deshita.: ojou-sama wa kakutou game na...,True
17477,46488,Tai-Ari deshita.: Ojou-sama wa Kakutou Game na...,"Game, Comedy, School, Seinen, Shoujo Ai",1,False,shoujo ai,tai-ari deshita.: ojou-sama wa kakutou game na...,True
17535,48391,Mazica Party,"Game, Magic, Fantasy",1,False,game,mazica party,True
17535,48391,Mazica Party,"Game, Magic, Fantasy",1,False,magic,mazica party,True


Quiza para un unico valor no tiene mucho sentido, pero este formato me permite hacer cosas un poco mas avanzadas como generarme una funcion que me devuelva si aparece alguno de los generos de una lista arbitraria

In [None]:
expandido

Unnamed: 0,MAL_ID,Name,Genres,apariciones,invalido,generos,name,t
0,1,Cowboy Bebop,"Action, Adventure, Comedy, Drama, Sci-Fi, Space",1,False,action,cowboy bebop,True
0,1,Cowboy Bebop,"Action, Adventure, Comedy, Drama, Sci-Fi, Space",1,False,adventure,cowboy bebop,True
0,1,Cowboy Bebop,"Action, Adventure, Comedy, Drama, Sci-Fi, Space",1,False,comedy,cowboy bebop,True
0,1,Cowboy Bebop,"Action, Adventure, Comedy, Drama, Sci-Fi, Space",1,False,drama,cowboy bebop,True
0,1,Cowboy Bebop,"Action, Adventure, Comedy, Drama, Sci-Fi, Space",1,False,sci-fi,cowboy bebop,True
...,...,...,...,...,...,...,...,...
17560,48491,Yama no Susume: Next Summit,"Adventure, Slice of Life, Comedy",1,False,adventure,yama no susume: next summit,True
17560,48491,Yama no Susume: Next Summit,"Adventure, Slice of Life, Comedy",1,False,slice of life,yama no susume: next summit,True
17560,48491,Yama no Susume: Next Summit,"Adventure, Slice of Life, Comedy",1,False,comedy,yama no susume: next summit,True
17561,48492,Scarlet Nexus,"Action, Fantasy",1,False,action,scarlet nexus,True


In [None]:
df["name"] = df.Name.map(lambda x: x.strip().lower())

A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  df["name"] = df.Name.map(lambda x: x.strip().lower())


In [None]:
def tiene_generos(name,generos):  
    for genero in generos:
        if serie_genero.loc[name,genero]:
            return True
    return False

df.loc[df.name.map( lambda x: tiene_generos(x,["drama","game"]))]

Unnamed: 0,MAL_ID,Name,Genres,apariciones,invalido,generos,name
0,1,Cowboy Bebop,"Action, Adventure, Comedy, Drama, Sci-Fi, Space",1,False,"[action, adventure, comedy, drama, sci-fi, space]",cowboy bebop
1,5,Cowboy Bebop: Tengoku no Tobira,"Action, Drama, Mystery, Sci-Fi, Space",1,False,"[action, drama, mystery, sci-fi, space]",cowboy bebop: tengoku no tobira
2,6,Trigun,"Action, Sci-Fi, Adventure, Comedy, Drama, Shounen",1,False,"[action, sci-fi, adventure, comedy, drama, sho...",trigun
3,7,Witch Hunter Robin,"Action, Mystery, Police, Supernatural, Drama, ...",1,False,"[action, mystery, police, supernatural, drama,...",witch hunter robin
6,16,Hachimitsu to Clover,"Comedy, Drama, Josei, Romance, Slice of Life",1,False,"[comedy, drama, josei, romance, slice of life]",hachimitsu to clover
...,...,...,...,...,...,...,...
17501,47257,Shinigami Bocchan to Kuro Maid,"Comedy, Drama, Romance",1,False,"[comedy, drama, romance]",shinigami bocchan to kuro maid
17518,47777,Toku: Touken Ranbu - Hanamaru - Setsugetsuka,"Action, Slice of Life, Comedy, Historical, Dra...",1,False,"[action, slice of life, comedy, historical, dr...",toku: touken ranbu - hanamaru - setsugetsuka
17526,48177,Ichiban Chikakute Tooi Hoshi,"Music, Drama",1,False,"[music, drama]",ichiban chikakute tooi hoshi
17535,48391,Mazica Party,"Game, Magic, Fantasy",1,False,"[game, magic, fantasy]",mazica party


In [None]:
def tiene_generos_apply(fila,generos): 
    for genero in generos:
        if serie_genero.loc[fila["name"],genero]:
            return True
    return False

df.loc[df.apply(lambda x:tiene_generos_apply(x,["drama","game"]),axis=1)]

Unnamed: 0,MAL_ID,Name,Genres,apariciones,invalido,generos,name
0,1,Cowboy Bebop,"Action, Adventure, Comedy, Drama, Sci-Fi, Space",1,False,"[action, adventure, comedy, drama, sci-fi, space]",cowboy bebop
1,5,Cowboy Bebop: Tengoku no Tobira,"Action, Drama, Mystery, Sci-Fi, Space",1,False,"[action, drama, mystery, sci-fi, space]",cowboy bebop: tengoku no tobira
2,6,Trigun,"Action, Sci-Fi, Adventure, Comedy, Drama, Shounen",1,False,"[action, sci-fi, adventure, comedy, drama, sho...",trigun
3,7,Witch Hunter Robin,"Action, Mystery, Police, Supernatural, Drama, ...",1,False,"[action, mystery, police, supernatural, drama,...",witch hunter robin
6,16,Hachimitsu to Clover,"Comedy, Drama, Josei, Romance, Slice of Life",1,False,"[comedy, drama, josei, romance, slice of life]",hachimitsu to clover
...,...,...,...,...,...,...,...
17501,47257,Shinigami Bocchan to Kuro Maid,"Comedy, Drama, Romance",1,False,"[comedy, drama, romance]",shinigami bocchan to kuro maid
17518,47777,Toku: Touken Ranbu - Hanamaru - Setsugetsuka,"Action, Slice of Life, Comedy, Historical, Dra...",1,False,"[action, slice of life, comedy, historical, dr...",toku: touken ranbu - hanamaru - setsugetsuka
17526,48177,Ichiban Chikakute Tooi Hoshi,"Music, Drama",1,False,"[music, drama]",ichiban chikakute tooi hoshi
17535,48391,Mazica Party,"Game, Magic, Fantasy",1,False,"[game, magic, fantasy]",mazica party


Tambien puedo reescribir la funcion para en vez de utilizar map o apply, operar directamente entre columnas. Es claramente mas complicado de pensar en este formato, pero es posible:

In [None]:
def tiene_generos_cols(generos):
    result = serie_genero[generos[0]]

    for x in generos[1:]:
        result = result | serie_genero[x] 
    
    return result

def filtrar():
    result = tiene_generos_cols(["drama","game"]).to_frame().reset_index()
    result.columns = ["name","tiene"]
    tmp = pd.concat([df.reset_index(),result],axis=1) 
    return tmp[tmp.tiene]

filtrar()

Unnamed: 0,index,MAL_ID,Name,Genres,apariciones,invalido,generos,name,tiene
3,3,7,Witch Hunter Robin,"Action, Mystery, Police, Supernatural, Drama, ...",1,False,"[action, mystery, police, supernatural, drama,...","""bungaku shoujo"" memoire",True
4,4,8,Bouken Ou Beet,"Adventure, Fantasy, Shounen, Supernatural",1,False,"[adventure, fantasy, shounen, supernatural]","""bungaku shoujo"" movie",True
6,6,16,Hachimitsu to Clover,"Comedy, Drama, Josei, Romance, Slice of Life",1,False,"[comedy, drama, josei, romance, slice of life]","""eiji""",True
8,8,18,Initial D Fourth Stage,"Action, Cars, Sports, Drama, Seinen",1,False,"[action, cars, sports, drama, seinen]","""eiyuu"" kaitai",True
15,15,25,Sunabouzu,"Action, Adventure, Comedy, Ecchi, Sci-Fi, Shounen",1,False,"[action, adventure, comedy, ecchi, sci-fi, sho...","""uchuu senkan yamato"" to iu jidai: seireki 220...",True
...,...,...,...,...,...,...,...,...,...
17540,17547,48426,Kitarou Tanjou: Gegege no Nazo,"Comedy, Demons, Supernatural, Shounen",1,False,"[comedy, demons, supernatural, shounen]",zukkoke sannin-gumi no jitensha kyoushitsu,True
17541,17548,48427,"The Sun, Moon and Stars",Music,1,False,[music],zukkoke sannin-gumi no koutsuu anzen,True
17546,17553,48466,Kyoukai Senki,"Action, Mecha",1,False,"[action, mecha]",zuori qing kong,True
17547,17554,48470,D_Cide Traumerei,"Action, Adventure, Drama, Magic, Fantasy",1,False,"[action, adventure, drama, magic, fantasy]",zuori qing kong pilot,True


In [None]:
%timeit df.loc[df.name.map( lambda x: tiene_generos(x,["drama","game"]))]

228 ms ± 6.21 ms per loop (mean ± std. dev. of 7 runs, 1 loop each)


In [None]:
%timeit df.loc[df.apply(lambda x:tiene_generos_apply(x,["drama","game"]),axis=1)]

472 ms ± 111 ms per loop (mean ± std. dev. of 7 runs, 1 loop each)


In [None]:
%timeit filtrar()

4.97 ms ± 222 µs per loop (mean ± std. dev. of 7 runs, 100 loops each)


Si comparamos los tiempos de ejecucion, por mas que es complicado y se hacen varias cosas entre medio, las versiones que no recurren a apply son mucho mas eficiente en terminos de tiempo.