# Ayudantía 3: Text & Categories

En esta ayudantía estudiaremos principalmente el uso de los tipos de datos `string` y `category`, y cuales son los metodos que usaremos para trabajar con este tipo de datos

## Texto

Como siempre, antes que todo importamos las librerias

In [1]:
import pandas as pd
import os
import numpy as np
pd.set_option("display.max_columns", 999)  # Permite mostrar hasta 999 columnas de un DataFrame en Jupyter.

Pebenos notas qué, al crear una Serie o Dataframe, sus elementos son designados como `object` (como podemos ver más abajo), que es la designacion generica 

In [2]:
s = pd.Series(['a', 'b', 'c'])
s

0    a
1    b
2    c
dtype: object

Para que la serie sea del tipo de dato `string`, hay que espesificarlo, o al cerar la serie:

In [3]:
s = pd.Series(['a', 'b', 'c'], dtype="string")
s

0    a
1    b
2    c
dtype: string

In [4]:
s = pd.Series(['a', 'b', 'c'], dtype=pd.StringDtype()) #estas dos fomas hacen los mismo
s

0    a
1    b
2    c
dtype: string

o con la serie ya creada:

In [5]:
s = pd.Series(['a', 'b', 'c'])
s = s.astype("string") 
s

0    a
1    b
2    c
dtype: string

Si tenemos un dataframe lo podemos hacer de forma similar:

In [6]:
df = pd.DataFrame({"A": ["a", "b", "c", "a"], "B": [1, 1, 2, 1]})
df["A"] = df["A"].astype('string')
df.B

0    1
1    1
2    2
3    1
Name: B, dtype: int64

## Metodos

Los metodos son "funciones" que le podemos aplicar a una serie que tenga un `dtype` especifico, en este caso siendo `string`. Estas nos permitiraran hacer (casi) de todo, modificar, filtrar, transformar, entre muchas otras cosas. Ahora haremos una pincelada por metodos que podemos usar, pero hay muchos más. Si quiren explorar aun más profundo está la [documentación](https://pandas.pydata.org/docs/user_guide/text.html) de pandas, donde hay una lista completa de todos los metodos, además de más ejemplos:

In [7]:
s = pd.Series(['A', 'B', 'C', 'Aaba', 'Baca','acac', np.nan, 'CABA', 'dog', 'cat'], dtype="string") #serie que nos permitirá trabajar
s

0       A
1       B
2       C
3    Aaba
4    Baca
5    acac
6    <NA>
7    CABA
8     dog
9     cat
dtype: string

Empecemos con cosas relacionadas a formato:

In [8]:
s.str.lower() #todo en minusculas

0       a
1       b
2       c
3    aaba
4    baca
5    acac
6    <NA>
7    caba
8     dog
9     cat
dtype: string

In [9]:
s.str.upper() #todo en mayusculas

0       A
1       B
2       C
3    AABA
4    BACA
5    ACAC
6    <NA>
7    CABA
8     DOG
9     CAT
dtype: string

Podemos preguntar el largo de cada `string`

In [10]:
s.str.len()

0       1
1       1
2       1
3       4
4       4
5       4
6    <NA>
7       4
8       3
9       3
dtype: Int64

Podemos preguntar cuales de los elementos comienza con un `string` en particular:

In [11]:
s.str.match("A")

0     True
1    False
2    False
3     True
4    False
5    False
6     <NA>
7    False
8    False
9    False
dtype: boolean

Notemos que este nos entrega una Serie de valores `boolean`, lo que nos permite usarla para "filtrar" de esta forma 

In [12]:
s[s.str.match("A")]

0       A
3    Aaba
dtype: string

Si quisieramos hacer algo similar, pero ignorando mayuscula y minuscula, podemos:

In [13]:
s[s.str.lower().str.match("a")] #Si! Podemos concatenar operaciones

0       A
3    Aaba
5    acac
dtype: string

O si quisieramos saber que elementos consitnene un `string` en particular:

In [14]:
s[s.str.contains('ca')]

4    Baca
5    acac
9     cat
dtype: string

Y podemos, tambien, contar la cantidad de veces que un `string` aparace

In [15]:
s.str.count("a")

0       0
1       0
2       0
3       2
4       2
5       2
6    <NA>
7       0
8       0
9       1
dtype: Int64

Y lo ultimo sobre texto que les mostraré será esto:

In [16]:
s.str[1]

0    <NA>
1    <NA>
2    <NA>
3       a
4       a
5       c
6    <NA>
7       A
8       o
9       a
dtype: string

Que nos retorna el elemento en la posición 1 de todos los strings en la serie

### Formating

Algo para lo que pueden ser muy utiles estos metodos, es para realizar *formating* en columnas. Por ejemplo

In [17]:
df = pd.DataFrame(np.random.randn(3, 2),columns=[' Column A ', ' Column B '], index=range(3))
df

Unnamed: 0,Column A,Column B
0,0.847961,-1.516208
1,1.13533,-0.115885
2,0.805979,-0.54241


Podemos ver que los nombres de estas columnas poseen espacios entre palabras, espacios a los lados, y mayusculas. Esto puede presentar un problema en algunas ocasiones, además de ser molesto a la hora de programar, es molesto tener que escribir `df[ Column A ] = ...` cada vez que queremos hacer algo, y para esto podemos hacer cambios que nos hagan más ameno trabajar con esta:

In [18]:
df.columns.str.strip() #elimina los espacios a los lados

Index(['Column A', 'Column B'], dtype='object')

In [19]:
df.columns.str.lower() #todo minusculas

Index([' column a ', ' column b '], dtype='object')

In [20]:
df.columns = df.columns.str.strip().str.lower().str.replace(' ', '_')
df

Unnamed: 0,column_a,column_b
0,0.847961,-1.516208
1,1.13533,-0.115885
2,0.805979,-0.54241


Podemos ver que el resultado son nombres en columnas que son mucho más fáciles de trabajar, es mucho más comodo escribir `df[column_a] = ...` 

## Categoricals
Citando de la documentacion de pandas: *Categoricals are a pandas data type corresponding to categorical variables in statistics. A categorical variable takes on a limited, and usually fixed, number of possible values (categories; levels in R). Examples are gender, social class, blood type, country affiliation, observation time or rating via Likert scales.*

*In contrast to statistical categorical variables, categorical data might have an order (e.g. ‘strongly agree’ vs ‘agree’ or ‘first observation’ vs. ‘second observation’), but numerical operations (additions, divisions, …) are not possible.*
 
tl;dr: Son valores limitados y usualmente fijos, que pueden o no tener un orden, pero no se les pueden hacer opraciones numericas

Para invocarlas lo hacemos de la misma forma que con los `strings`

In [21]:
s = pd.Series(["a", "b", "c", "a"], dtype="category")
s

0    a
1    b
2    c
3    a
dtype: category
Categories (3, object): [a, b, c]

Lo podemos hacer al momentos de crearla, o lo podemos asignar luego 

In [22]:
df = pd.DataFrame({"A": ["a", "b", "c", "a"]})
df["B"] = df["A"].astype('category')
df

Unnamed: 0,A,B
0,a,a
1,b,b
2,c,c
3,a,a


In [23]:
df.dtypes 

A      object
B    category
dtype: object

In [24]:
df['B'] #podemos ver que la categoria se creo de forma automática

0    a
1    b
2    c
3    a
Name: B, dtype: category
Categories (3, object): [a, b, c]

Existe gran variedad de funciones que nos permiten asignar categorias a dataframes ya existentes:

In [25]:
df = pd.DataFrame({'value': np.random.randint(0, 100, 20)})
df.head()

Unnamed: 0,value
0,91
1,55
2,48
3,6
4,47


In [26]:
#pd.cut? #descomente para ver la doscumentacion de cut

Entre estas está `cut` para, que nos permite usar etiquetas ya hechas para separar valores numericos en intervalos

In [27]:
labels = ["{0} - {1}".format(i, i + 9) for i in range(0, 100, 10)] #acá estamos creando las eqitas de la forma i - i+9
df['group'] = pd.cut( #aca le decimos, en una nueva columna llamada 'group'
                     df.value # usa estos datos
                     , range(0, 105, 10) #y estos limites 
                     , right=False #sin el limite de la derecha
                     , labels=labels #usando estas etiquetas
                    ) 
df.head()

Unnamed: 0,value,group
0,91,90 - 99
1,55,50 - 59
2,48,40 - 49
3,6,0 - 9
4,47,40 - 49


In [28]:
df.dtypes

value       int32
group    category
dtype: object

Y podemos ver que cada numero esta asignado a la categoria que corresponde. 

Notemos que una categoria esta definida completamente por dos elementos: 
 
* Las categorias en sí, una secuancia de valores unicos y sin valores perdidos
* Su orden, un booleano que explicita si la categoria es ordenada o no

lo podemos ver aquí:


In [29]:
df['group'].cat.categories

Index(['0 - 9', '10 - 19', '20 - 29', '30 - 39', '40 - 49', '50 - 59',
       '60 - 69', '70 - 79', '80 - 89', '90 - 99'],
      dtype='object')

In [30]:
df['group'].cat.ordered #cut genera catogorias ordenadas

True

### Metodos

De la misma forma que con los `string`, las categorias tiene su abanico de metodos que nos permiten trabajar con ellas, por ejemplo:

In [31]:
s = pd.Series(["a", "b", "c", "a"], dtype="category")
s

0    a
1    b
2    c
3    a
dtype: category
Categories (3, object): [a, b, c]

Podemos renombrar las categorias, usando de base los valores existentes:

In [32]:
s.cat.categories = ["Group %s" % g for g in s.cat.categories]
s

0    Group a
1    Group b
2    Group c
3    Group a
dtype: category
Categories (3, object): [Group a, Group b, Group c]

Podemos usar una lista totalmente distinta 

In [33]:
s = s.cat.rename_categories([1, 2, 3])
s

0    1
1    2
2    3
3    1
dtype: category
Categories (3, int64): [1, 2, 3]

O podemos usar diccionarios con el fin de hacer un cambio elemento por elemento

In [34]:
s = s.cat.rename_categories({2: 'y', 1: 'x' , 3: 'z'})
s

0    x
1    y
2    z
3    x
dtype: category
Categories (3, object): [x, y, z]

Podemos agregar elementos nuevos a la categoria:

In [35]:
s = s.cat.add_categories([4])
s

0    x
1    y
2    z
3    x
dtype: category
Categories (4, object): [x, y, z, 4]

Y podemos remover

In [36]:
s = s.cat.remove_categories([4])
s

0    x
1    y
2    z
3    x
dtype: category
Categories (3, object): [x, y, z]

Algo que puede ser muy util para ahorrar memoria, podemos remover todas las categorias en desuso:

In [37]:
s1 = pd.Series(pd.Categorical(["a", "b", "a"],categories=["a", "b", "c", "d"]))
s1

0    a
1    b
2    a
dtype: category
Categories (4, object): [a, b, c, d]

In [38]:
s1 = s1.cat.remove_unused_categories()
s1

0    a
1    b
2    a
dtype: category
Categories (2, object): [a, b]

Si las categorias son ordendas, tenemos otro abanico de herramientas para usar:

In [39]:
s2 = pd.Series(["a", "b", "c", "a"]).astype(pd.CategoricalDtype(ordered=True))
s2

0    a
1    b
2    c
3    a
dtype: category
Categories (3, object): [a < b < c]

Podemos ordenar, tambien como llamar al máximo y al mínimo

In [40]:
s2.sort_values(inplace=True)
s2

0    a
3    a
1    b
2    c
dtype: category
Categories (3, object): [a < b < c]

In [41]:
s2.min(), s2.max()

('a', 'c')

Notemos que el orden tiene todo que ver con como lo predeterminamos, y no con oredenes léxicos y/o numericos, i.e.:

In [42]:
s3 = pd.Series([1, 2, 3, 1], dtype="category")
s3 = s3.cat.set_categories([2, 3, 1], ordered=True)
s3

0    1
1    2
2    3
3    1
dtype: category
Categories (3, int64): [2 < 3 < 1]

In [43]:
s3.sort_values(inplace=True)
s3

1    2
2    3
0    1
3    1
dtype: category
Categories (3, int64): [2 < 3 < 1]

Dado que podemos asignar un orden a las categorias, podemos aprovechar para hacer orden en multiples columnas:

In [44]:
df1 = pd.DataFrame({'A': pd.Categorical(list('bbeebbaa'),categories=['e', 'a', 'b'],ordered=True),'B': [1, 2, 1, 2, 2, 1, 2, 1]})
df1.sort_values(by=['A', 'B'])

Unnamed: 0,A,B
2,e,1
3,e,2
7,a,1
6,a,2
0,b,1
5,b,1
1,b,2
4,b,2


Si queremos extraer las categorias con un valor en especifico podemo hacer esto:

In [45]:
df1[df1.A=='e']

Unnamed: 0,A,B
2,e,1
3,e,2


O, lo que es lo mismo:    

In [46]:
df1[df1['A']=='e']

Unnamed: 0,A,B
2,e,1
3,e,2


Tambien podemos usar conectores lógicos, recomiendo leer este [respuesta](https://stackoverflow.com/questions/21415661/logical-operators-for-boolean-indexing-in-pandas/54358361#54358361) de Stack Overflow para que tengan un entendimiento sobre como funcionan los conectores lógicos en `Pandas`

In [47]:
df1[(df1.B==1) & (df1.A=='e')]

Unnamed: 0,A,B
2,e,1


Tambien podemos compararar, si tenemos Series distintas, pero que poseen las mismas categorias, podemos realizar comparaciones como: 

In [48]:
cat = pd.Series([1, 2, 3]).astype(
    pd.CategoricalDtype([3, 2, 1], ordered=True)
)


cat_base = pd.Series([2, 2, 2]).astype(
    pd.CategoricalDtype([3, 2, 1], ordered=True)
)

In [49]:
cat

0    1
1    2
2    3
dtype: category
Categories (3, int64): [3 < 2 < 1]

In [50]:
cat_base

0    2
1    2
2    2
dtype: category
Categories (3, int64): [3 < 2 < 1]

Podemos hacer lo típico

In [51]:
cat > cat_base #comparar con otra serie

0     True
1    False
2    False
dtype: bool

In [52]:
cat > 2 #con un elemento de la categoria 

0     True
1    False
2    False
dtype: bool

In [53]:
cat == cat_base #igualdades

0    False
1     True
2    False
dtype: bool

In [54]:
cat != cat_base #desigualdades

0     True
1    False
2     True
dtype: bool

Hay muchisimo que no alcanzamos a ver, para esto la [documentacion](https://pandas.pydata.org/docs/user_guide/categorical.html) es tu amiga (casi tanto como Stack Overflow)

Algo que no es especifico a estos dos tipos de data, es que si tenemos un dataframe, podemos cambiar su tipo de datos de forma rapida de la siguiente manera:

In [55]:
df2 = pd.DataFrame({
    'A': list('bbeebbaa')
    , 'B': ['juan', 'carla', 'pedro', 'noemi', 'jack', 'carlos', 'sofia', 'maria']
    , 'C': [1, 2, 1, 2, 2, 1, 2, 1]
                   })
df2.dtypes

A    object
B    object
C     int64
dtype: object

Podemos definir un diccionario de esta forma:

In [56]:
conv = {
    'A': 'category'
    , 'B': 'string'
}

In [57]:
df2 = df2.astype(conv) 
df2.dtypes

A    category
B      string
C       int64
dtype: object

### Ejercicos 

Usaremos la base de datos de libros en *Goodreads books*, que es un sitio web donde puedes llevar un registro de los libros que vas leyendo, citando de [Kaggle](https://www.kaggle.com/jealousleopard/goodreadsbooks):

#### Context

The primary reason for creating this dataset is the requirement of a good clean dataset of books. Being a bookie myself (see what I did there?) I had searched for datasets on books in kaggle itself - and I found out that while most of the datasets had a good amount of books listed, there were either a) major columns missing or b) grossly unclean data. I mean, you can't determine how good a book is just from a few text reviews, come on! What I needed were numbers, solid integers and floats that say how many people liked the book or hated it, how much did they like it, and stuff like that. Even the good dataset that I found was well-cleaned, it had a number of interlinked files, which increased the hassle. This prompted me to use the Goodreads API to get a well-cleaned dataset, with the promising features only ( minus the redundant ones ), and the result is the dataset you're at now.

Lo primero será invocar nuestro dataframe

In [60]:
df = pd.read_csv('./data/books.csv', index_col = 'bookID')
df.columns

Index(['title', 'authors', 'average_rating', 'isbn', 'isbn13', 'language_code',
       '  num_pages', 'ratings_count', 'text_reviews_count',
       'publication_date', 'publisher;;;'],
      dtype='object')

Ya teniendolo, es bueno desacernos de las cosas que no usaremos con tal de ahorrar memoria, por lo que usaremos `.drop()` para quitarnos los isbn y el publicador, además vamos a botar los `NaN`, para que trabajar dea más simple

In [61]:
no_use =['isbn', 'isbn13','publisher;;;'] #no usaremos esto, así que los podemos dropear
df = df.drop(no_use, axis=1).dropna()
df.head()

Unnamed: 0_level_0,title,authors,average_rating,language_code,num_pages,ratings_count,text_reviews_count,publication_date
bookID,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1
1,Harry Potter and the Half-Blood Prince (Harry ...,J.K. Rowling/Mary GrandPré,4.57,eng,652.0,2095690.0,27591.0,9/16/2006
2,Harry Potter and the Order of the Phoenix (Har...,J.K. Rowling/Mary GrandPré,4.49,eng,870.0,2153167.0,29221.0,9/1/2004
4,Harry Potter and the Chamber of Secrets (Harry...,J.K. Rowling,4.42,eng,352.0,6333.0,244.0,11/1/2003
5,Harry Potter and the Prisoner of Azkaban (Harr...,J.K. Rowling/Mary GrandPré,4.56,eng,435.0,2339585.0,36325.0,5/1/2004
8,Harry Potter Boxed Set Books 1-5 (Harry Potte...,J.K. Rowling/Mary GrandPré,4.78,eng,2690.0,41428.0,164.0,9/13/2004


Ahora, como pueden ver abajo, muchos de las filas estan con `object`, por lo cual los cambiaremos como esta indicado más abajo:

In [62]:
df.dtypes

title                  object
authors                object
average_rating        float64
language_code          object
  num_pages           float64
ratings_count         float64
text_reviews_count    float64
publication_date       object
dtype: object

In [66]:
conv = {
    'title': 'string',
    'authors': 'string',
    'language_code': 'category'
#     'publication_date': 'datetime'
}
df = df.astype(conv)

In [67]:
df.dtypes

title                   string
authors                 string
average_rating         float64
language_code         category
  num_pages            float64
ratings_count          float64
text_reviews_count     float64
publication_date        object
dtype: object

Ahora, trabajar con los ratings de forma libre puede se un poco sobrecojedor, sería mejor usar categorias para separarlos, utiliza cut  

In [73]:
labels = ["{0} - {1}".format(i, i+1)  for i in range(0,5)] 
df['rating_group'] = pd.cut(
                            df.average_rating 	 # usa estos datos
                            , range(0,6) #y estos limites 
                            , right=False #sin el limite de la derecha
                            , labels=labels #usando estas etiquetas
                           ) 
df.head()

Unnamed: 0_level_0,title,authors,average_rating,language_code,num_pages,ratings_count,text_reviews_count,publication_date,rating_group
bookID,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1
1,Harry Potter and the Half-Blood Prince (Harry ...,J.K. Rowling/Mary GrandPré,4.57,eng,652.0,2095690.0,27591.0,9/16/2006,4 - 5
2,Harry Potter and the Order of the Phoenix (Har...,J.K. Rowling/Mary GrandPré,4.49,eng,870.0,2153167.0,29221.0,9/1/2004,4 - 5
4,Harry Potter and the Chamber of Secrets (Harry...,J.K. Rowling,4.42,eng,352.0,6333.0,244.0,11/1/2003,4 - 5
5,Harry Potter and the Prisoner of Azkaban (Harr...,J.K. Rowling/Mary GrandPré,4.56,eng,435.0,2339585.0,36325.0,5/1/2004,4 - 5
8,Harry Potter Boxed Set Books 1-5 (Harry Potte...,J.K. Rowling/Mary GrandPré,4.78,eng,2690.0,41428.0,164.0,9/13/2004,4 - 5


Ahora, ¿tienes un autor favorito?, ¿O una saga de libros favorita?, ahora vamos a buscarlos, y ver que tal les va. Antes que eso, es conveniente hacer que todo esté en minuscula. Sino siempre esta Harry Potter (?

In [74]:
df['title']= df.title.str.lower()
df['authors']= df.authors.str.lower()

Y podemos buscar:

In [76]:
df[df.authors.str.contains('edgar allan poe')]

Unnamed: 0_level_0,title,authors,average_rating,language_code,num_pages,ratings_count,text_reviews_count,publication_date,rating_group
bookID,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1
23796,the medusa in the shield,david g. hartwell/robert aickman/charlotte per...,3.88,eng,498.0,49.0,6.0,11/15/1991,3 - 4
23919,the complete stories and poems,edgar allan poe,4.38,eng,821.0,183869.0,1226.0,8/15/1984,4 - 5
23920,complete tales and poems,edgar allan poe,4.38,eng,864.0,1864.0,110.0,11/29/2009,4 - 5
23922,the edgar allan poe audio collection,edgar allan poe,4.39,eng,5.0,289.0,64.0,10/1/2000,4 - 5
23925,18 best stories by edgar allan poe,edgar allan poe/vincent price/chandler brossard,4.02,eng,288.0,412.0,37.0,4/15/1965,4 - 5
23926,complete poems (library of classic poets),edgar allan poe,4.17,en-US,128.0,198.0,11.0,3/20/2001,4 - 5
30029,tales of mystery and madness,edgar allan poe/gris grimly,4.34,eng,135.0,2226.0,139.0,8/30/2011,4 - 5
32552,essential tales and poems,edgar allan poe/benjamin f. fisher,4.36,en-US,688.0,66382.0,109.0,10/25/2004,4 - 5
32558,poetry tales and selected essays,edgar allan poe/gary richard thompson/g.r. tho...,4.41,eng,1520.0,170.0,13.0,10/1/1996,4 - 5
36310,the portable edgar allan poe,edgar allan poe/j. gerald kennedy,4.31,eng,672.0,234.0,20.0,9/28/2006,4 - 5


Con esto tenemos un dataframe, ahora veamos cuantos elementos hay en él

In [77]:
df[df.authors.str.contains('edgar allan poe')]['title'].count()

13

Podemos ver cuantos libros contienen a tu saga/autor favorito. Y de esos ¿Cuantos tienen nota entre 4 y 5?

In [78]:
df[(df.authors.str.contains('edgar allan poe')) & (df.rating_group == '4 - 5')]

Unnamed: 0_level_0,title,authors,average_rating,language_code,num_pages,ratings_count,text_reviews_count,publication_date,rating_group
bookID,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1
23919,the complete stories and poems,edgar allan poe,4.38,eng,821.0,183869.0,1226.0,8/15/1984,4 - 5
23920,complete tales and poems,edgar allan poe,4.38,eng,864.0,1864.0,110.0,11/29/2009,4 - 5
23922,the edgar allan poe audio collection,edgar allan poe,4.39,eng,5.0,289.0,64.0,10/1/2000,4 - 5
23925,18 best stories by edgar allan poe,edgar allan poe/vincent price/chandler brossard,4.02,eng,288.0,412.0,37.0,4/15/1965,4 - 5
23926,complete poems (library of classic poets),edgar allan poe,4.17,en-US,128.0,198.0,11.0,3/20/2001,4 - 5
30029,tales of mystery and madness,edgar allan poe/gris grimly,4.34,eng,135.0,2226.0,139.0,8/30/2011,4 - 5
32552,essential tales and poems,edgar allan poe/benjamin f. fisher,4.36,en-US,688.0,66382.0,109.0,10/25/2004,4 - 5
32558,poetry tales and selected essays,edgar allan poe/gary richard thompson/g.r. tho...,4.41,eng,1520.0,170.0,13.0,10/1/1996,4 - 5
36310,the portable edgar allan poe,edgar allan poe/j. gerald kennedy,4.31,eng,672.0,234.0,20.0,9/28/2006,4 - 5
36311,great short works,edgar allan poe/gary richard thompson,4.26,en-US,576.0,683.0,13.0,11/28/1970,4 - 5


Veamos cuantos hay

In [79]:
df[(df.authors.str.contains('edgar allan poe')) & (df.rating_group == '4 - 5')]['title'].count()

11

Y en el resto de las notas, ¿cómo le va?

In [80]:
df[(df.authors.str.contains('edgar allan poe')) & (df.rating_group != '4 - 5')]

Unnamed: 0_level_0,title,authors,average_rating,language_code,num_pages,ratings_count,text_reviews_count,publication_date,rating_group
bookID,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1
23796,the medusa in the shield,david g. hartwell/robert aickman/charlotte per...,3.88,eng,498.0,49.0,6.0,11/15/1991,3 - 4
43594,the campfire collection: spine-tingling tales ...,eric b. martin/george r. stewart/peter matthie...,3.22,en-US,176.0,50.0,6.0,3/1/2000,3 - 4


Por ultimo, ¿algo más que quieras saber? Deja tu curiosidad ser libre, y busca algo que te parezca interesante que puedas encontrar ene sta base de datos:

In [82]:
df.groupby('rating_group').apply(lambda x : x['average_rating'].count())

rating_group
0 - 1      23
1 - 2       3
2 - 3      56
3 - 4    6068
4 - 5    4922
dtype: int64