![](https://i.ytimg.com/vi/dmrzO3T-GXQ/maxresdefault.jpg)

# Análisis de Datos Exploratorias (EDA)

## Introducción

El análisis de datos exploratorios (**EDA**) es un paso importante en el proceso de análisis de datos para comprender mejor el conjunto de datos. Al hacer EDA, podemos entender las principales características de los datos, las relaciones entre las variables y las variables que son relevantes para nuestro problema. La EDA también puede ayudar a identificar y manejar valores faltantes o duplicados, atípicos y errores en los datos.

Para este proyecto, se analizara los Goodreads Choice Awards Los Mejores Libros de 2023.

![](https://miro.medium.com/v2/resize:fit:720/format:webp/0*s8PTj_UYX2LbZpl-.jpg)

## Entender los datos

### Importar las bibliotecas necesarias

In [50]:
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
import warnings
warnings.filterwarnings('ignore')

### Cargar el conjunto de datos en pandas dataframe

In [53]:
#Los datos están en un archivo CSV, así que se va a utilizar Pandas para leer el archivo CSV.
df = pd.read_csv('Good_Reads_Book_Awards_Crawl_2023_12_27_11_14.csv')

df.sample(5) #mostrar un set de los datos

Unnamed: 0,source_URL,Readers Choice Votes,Readers Choice Category,Title,Author,Total Avg Rating,Number of Ratings,Number of Reviews,Number of Pages,Edition,Book Description,First Published date,Kindle Version and Price,Kindle Price,About the Author
24,https://www.goodreads.com/book/show/62054146-t...,30379,Historical Fiction,The Keeper of Hidden Books,Madeline Martin,4.19,6629,882,416,Paperback,A heartwarming story about the power of books ...,1-Aug-23,Kindle $12.99,12.99,"Madeline Martin is a New York Times, USA Today..."
234,https://www.goodreads.com/book/show/61685822-m...,3672,Nonfiction,Monsters: A Fan's Dilemma,Claire Dederer,3.86,6423,1154,257,Hardcover,From the author of the New York Times best sel...,25-Apr-23,Kindle $14.99,14.99,"Claire’s first book, Poser: My Life in Twenty-..."
172,https://www.goodreads.com/book/show/61273084-d...,3691,Young Adult Fantasy & Science Fiction,Delicious Monsters,Liselle Sambury,4.08,3556,900,512,Hardcover,The Haunting of Hill House meets Sadie in this...,28-Feb-23,Kindle $10.99,10.99,Liselle Sambury is the Trinidadian-Canadian au...
252,https://www.goodreads.com/book/show/61885057-w...,3258,Memoir & Autobiography,While You Were Out: An Intimate Family Portrai...,Meg Kissinger,4.31,3845,596,320,Hardcover,"From award-winning journalist Meg Kissinger, a...",5-Sep-23,Kindle $14.99,14.99,Meg Kissinger spent more than two decades trav...
170,https://www.goodreads.com/book/show/58303740-s...,3912,Young Adult Fantasy & Science Fiction,"Song of Silver, Flame Like Night",Amélie Wen Zhao,3.83,7050,1939,512,Paperback,"In a fallen kingdom, one girl carries the key ...",3-Jan-23,Kindle $8.99,8.99,Amélie Wen Zhao（赵雯）was born in Paris and grew ...


Entonces se va a eliminar algunas columna innecesaria del conjunto de datos, este paso es opcional, pero ya que no se va a usar esas columnas, es mejor eliminarlas para reducir el tamaño del DataFrame

In [56]:
#Las columnas no utilizadas son source.URL, Book Description y About the Author
df.drop(['source_URL','Book Description','About the Author'],axis=1, inplace=True)

### Comprobación del DataFrame

Ahora se va a comprobar los tipos de datos para cada columna y comprobar el resumen de las columnas numéricas para que se pueda determinar la próxima acción.

In [59]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 299 entries, 0 to 298
Data columns (total 12 columns):
 #   Column                    Non-Null Count  Dtype  
---  ------                    --------------  -----  
 0   Readers Choice Votes      299 non-null    int64  
 1   Readers Choice Category   299 non-null    object 
 2   Title                     299 non-null    object 
 3   Author                    299 non-null    object 
 4   Total Avg Rating          299 non-null    float64
 5   Number of Ratings         299 non-null    object 
 6   Number of Reviews         299 non-null    object 
 7   Number of Pages           299 non-null    int64  
 8   Edition                   299 non-null    object 
 9   First Published date      299 non-null    object 
 10  Kindle Version and Price  299 non-null    object 
 11  Kindle Price              299 non-null    float64
dtypes: float64(2), int64(2), object(8)
memory usage: 28.2+ KB


Según **.info()**, el conjunto de datos se ve bien sin ningún valor faltante. También da cierta información, como la forma de nuestro conjunto de datos (12 columnas y 299 filas) y los tipos de datos para cada columna.

In [62]:
df.describe()

Unnamed: 0,Readers Choice Votes,Total Avg Rating,Number of Pages,Kindle Price
count,299.0,299.0,299.0,299.0
mean,19662.919732,4.063512,392.394649,11.327926
std,32406.337679,0.252188,123.698044,5.351909
min,935.0,3.52,192.0,0.0
25%,3591.0,3.855,320.0,9.99
50%,10099.0,4.06,368.0,13.99
75%,24714.0,4.25,432.0,14.99
max,397565.0,4.75,1242.0,17.99


El método **.describe()**  da estadísticas resumidas para columnas numéricas del DataFrame. Tales como el promedio, media, desviación estándar, valores mínimos y máximos para cada columna numérica.

### Cambio de Int/Float y asignación de tipos de datos

Una vez que se ha identificado el tamaño y los tipos numericos de los datos, se puede proceder a determinar los pasos siguientes delo análsis de losdatos. Por **.info()**, conocemos el tamaño de los datos, que es de **28.2 KB** y los tipos de datos para cada columna. El método **.describe()** nos mostró las estadísticas de las columnas numéricas, como el valor mínimo y máximo de cada columna, así como el promedio.

Con este resultado, se puede ver que todavía faltan algunas columnas, como el número de calificaciones y el número de críticas, que se supone que son columnas numéricas. Resulta que esas columnas usan comas “,”como separador decimal. Otras columnas como *Readers Choice Votes* no tienen separadores de miles, ya que se almacenaron como formato general. La razón para escribir números con un separador y en vez usar el número completo es porque es era opción más segura, ya que los números podrían ser identificadores, o algún otro contador de número. Así que, para hacer eso, se necesita quitar la coma.

In [66]:
numeric_columns = ['Number of Ratings','Number of Reviews']

#Elimina las comas de las columnas y convierte los datos a Int32
for column in numeric_columns:
    df[column] = df[column].replace(',', '', regex=True).astype('int32')

In [68]:
df.describe()

Unnamed: 0,Readers Choice Votes,Total Avg Rating,Number of Ratings,Number of Reviews,Number of Pages,Kindle Price
count,299.0,299.0,299.0,299.0,299.0,299.0
mean,19662.919732,4.063512,38748.351171,5241.705686,392.394649,11.327926
std,32406.337679,0.252188,79586.655592,10800.06966,123.698044,5.351909
min,935.0,3.52,228.0,71.0,192.0,0.0
25%,3591.0,3.855,5516.5,952.0,320.0,9.99
50%,10099.0,4.06,14519.0,2469.0,368.0,13.99
75%,24714.0,4.25,37143.0,5109.5,432.0,14.99
max,397565.0,4.75,930928.0,141668.0,1242.0,17.99


Este método eliminará todas las **comas** de esas columnas. Se puede dejar por defecto como **.astype('int32')** porque pandas asignará automáticamente el tipo de datos en **int64**. Los números 32 y 64 representan la cantidad de memoria o cuántos bits por fila va a almacenar estos valores.

In [71]:
df.describe ()

Unnamed: 0,Readers Choice Votes,Total Avg Rating,Number of Ratings,Number of Reviews,Number of Pages,Kindle Price
count,299.0,299.0,299.0,299.0,299.0,299.0
mean,19662.919732,4.063512,38748.351171,5241.705686,392.394649,11.327926
std,32406.337679,0.252188,79586.655592,10800.06966,123.698044,5.351909
min,935.0,3.52,228.0,71.0,192.0,0.0
25%,3591.0,3.855,5516.5,952.0,320.0,9.99
50%,10099.0,4.06,14519.0,2469.0,368.0,13.99
75%,24714.0,4.25,37143.0,5109.5,432.0,14.99
max,397565.0,4.75,930928.0,141668.0,1242.0,17.99


Se visualiza el valor mínimo y máximo de cada columna numérica. Por ejemplo de la columna *Readers Choice Votes*, el valor más pequeño es el **935** y el más alto es **397565**.

Conociendo el rango de valores, ahora se puede determinar los bits para almacenar estos valores. 
Para referencias:

- **Int8** Las variables pueden contener valores que van de -128 a 127.
- **Int16** Las variables pueden contener valores que oscilan entre 3.778 y 32.767.
- **Int32** Las variables pueden contener valores que oscilan entre -2,147,483,648 y 2.147.483.647.
- **Int64**Las variables pueden almacenar valores que oscilan entre -9,223,372.0366,854,775,808 a 9.223,372,0366,854,775,807.

El **Int32** es la opción perfecta porque se ajusta al rango de valor. Se puede usar Int64, pero no es apropiado porque utilizaría más memoria y hace que el DataFrame sea menos eficiente.

Para decimales (float), es un poco diferente porque realmente afecta a cuántos decimales se puede almacenar en  loa datos. **Float16** almacena **4** dígitos decimales, **Float32** almacena **8** dígitos decimales, y **Float64** almacena **16** dígitos decimales. La mejor opción es usar Float16 porque realmente se necesita usar muchos dígitos decimales en el DataFrame, pero todavía se quiere mantener los valores iguales al original.

Ahora que se conoce el rango de valor para cada columna, se asignara a cada una de esas columnas los tipos de datos adecuados.

También hay algunas columnas que almacenan valores de texto. Se puede asignar los tipos de datos de esas columnas como **string** o **category**. A partir de la documentación de pandas, el tipo de datos categórico es útil si una variable de texto contiene en sólo unos pocos valores diferentes, por ejemplo, género, clase social, tipo de sangre, afiliación al país, etc. Por esa definición, la categoría es la mejor elección de las columnas de textp para usar como tipo de datos categórico.

In [17]:
#Convierte el resto de las columnas al correcto tipo de datos
convert_dict = {'Readers Choice Votes': 'int32',
                'Readers Choice Category': 'category',
                'Title': 'string',
                'Author': 'string',
                'Total Avg Rating': 'float16',
                'Number of Pages': 'int16',
                'Edition': 'category',
                'First Published date': 'datetime64[ns]',
                'Kindle Price': 'float16'}
df = df.astype(convert_dict)

In [19]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 299 entries, 0 to 298
Data columns (total 12 columns):
 #   Column                    Non-Null Count  Dtype         
---  ------                    --------------  -----         
 0   Readers Choice Votes      299 non-null    int32         
 1   Readers Choice Category   299 non-null    category      
 2   Title                     299 non-null    string        
 3   Author                    299 non-null    string        
 4   Total Avg Rating          299 non-null    float16       
 5   Number of Ratings         299 non-null    int32         
 6   Number of Reviews         299 non-null    int32         
 7   Number of Pages           299 non-null    int16         
 8   Edition                   299 non-null    category      
 9   First Published date      299 non-null    datetime64[ns]
 10  Kindle Version and Price  299 non-null    object        
 11  Kindle Price              299 non-null    float16       
dtypes: category(2), dateti

Para la columna **Kindle Version and Price**, se eliminara el precio, ya que la otra columna **Kindle Price** contiene los datos de los precios

In [21]:
#Separar el precio del texto y crear una nueva columna
df['Kindle Version'] = df['Kindle Version and Price'].str.extract('([a-zA-Z ]+)', expand=False).str.strip()

#Cambiar el tipo de dato a la nueva columna
df['Kindle Version'] = df['Kindle Version'].astype('category')

#Eliminar la columna original
df = df.drop('Kindle Version and Price', axis=1)

Revisemos una vez más nuestro dataframe para ver los tipos de datos como han cambiado:

In [23]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 299 entries, 0 to 298
Data columns (total 12 columns):
 #   Column                   Non-Null Count  Dtype         
---  ------                   --------------  -----         
 0   Readers Choice Votes     299 non-null    int32         
 1   Readers Choice Category  299 non-null    category      
 2   Title                    299 non-null    string        
 3   Author                   299 non-null    string        
 4   Total Avg Rating         299 non-null    float16       
 5   Number of Ratings        299 non-null    int32         
 6   Number of Reviews        299 non-null    int32         
 7   Number of Pages          299 non-null    int16         
 8   Edition                  299 non-null    category      
 9   First Published date     299 non-null    datetime64[ns]
 10  Kindle Price             299 non-null    float16       
 11  Kindle Version           299 non-null    category      
dtypes: category(3), datetime64[ns](1), f

In [25]:
df.describe()

Unnamed: 0,Readers Choice Votes,Total Avg Rating,Number of Ratings,Number of Reviews,Number of Pages,Kindle Price
count,299.0,299.0,299.0,299.0,299.0,299.0
mean,19662.919732,4.0625,38748.351171,5241.705686,392.394649,11.328125
std,32406.337679,0.252197,79586.655592,10800.06966,123.698044,5.351562
min,935.0,3.519531,228.0,71.0,192.0,0.0
25%,3591.0,3.854492,5516.5,952.0,320.0,9.992188
50%,10099.0,4.058594,14519.0,2469.0,368.0,13.992188
75%,24714.0,4.25,37143.0,5109.5,432.0,14.992188
max,397565.0,4.75,930928.0,141668.0,1242.0,17.984375


In [27]:
df.sample(10)

Unnamed: 0,Readers Choice Votes,Readers Choice Category,Title,Author,Total Avg Rating,Number of Ratings,Number of Reviews,Number of Pages,Edition,First Published date,Kindle Price,Kindle Version
22,35411,Historical Fiction,Lady Tan's Circle of Women,Lisa See,4.378906,51472,5619,368,Hardcover,2023-06-06,14.992188,Kindle
56,5323,Mystery & Thriller,Good Bad Girl,Alice Feeney,3.660156,28706,4510,306,Hardcover,2023-08-29,14.992188,Kindle
72,9492,Romance,The True Love Experiment,Christina Lauren,4.160156,89703,11581,409,Hardcover,2023-05-16,12.992188,Kindle
120,57535,Science Fiction,In the Lives of Puppets,T.J. Klune,3.970703,44755,8885,432,Hardcover,2023-04-25,14.992188,Kindle
36,4948,Historical Fiction,River Sing Me Home,Eleanor Shearer,4.019531,18793,2469,322,Hardcover,2023-01-19,12.992188,Kindle
219,25910,Nonfiction,"Poverty, by America",Matthew Desmond,4.300781,22306,3205,284,Hardcover,2023-03-21,13.992188,Kindle
258,1280,Memoir & Autobiography,A Living Remedy: A Memoir,Nicole Chung,4.050781,3841,561,256,Hardcover,2023-04-04,1.990234,Kindle
261,22698,History & Biography,"Killing the Witches: The Horror of Salem, Mass...",Bill O'Reilly|Martin Dugard,3.830078,4266,511,291,Hardcover,2023-09-26,15.992188,Kindle
21,46591,Historical Fiction,The Covenant of Water,Abraham Verghese,4.5,97185,11105,724,Hardcover,2023-05-02,9.242188,Kindle
281,24792,Humor,"Sure, I'll Join Your Cult: A Memoir of Mental ...",Maria Bamford,4.0,6572,945,287,Hardcover,2023-09-05,14.992188,Kindle


Como se observa en los resultados, se puede **reducir el tamaño** de memoria del DataFrame cambiando los tipos de datos y reduciendo enteros y decimales. Hay que tener en cuenta que estos pasos son **opcionales**, pero puede ser **muy útil si se esta trabajando con un gran conjunto de datos**.