Primero debemos importar la biblioteca `pandas` y luego definir la ruta al archivo CSV.

```python
import pandas as pd

# Definir la ruta al archivo CSV
ruta = '../data/Books.csv'
```

> **Nota:** Asegúrate de que la ruta sea correcta y que el archivo `Books.csv` exista en la ubicación indicada.

In [12]:
import pandas as pd

df = pd.read_csv('../data/Books.csv')

print("DataFrame cargado con éxito")

DataFrame cargado con éxito


## Estructura y Componentes de pandas

Los **DataFrames** forman el núcleo de la biblioteca `pandas`, permitiendo la manipulación eficiente y flexible de datos tabulares.

`pandas` está construido sobre dos paquetes esenciales de Python: **NumPy** y **Matplotlib**.

<img src="../resource/pandas_structure.png" alt="Estructura de pandas" style="display:block; margin:auto;">

- **NumPy** proporciona los objetos de matrices multidimensionales que facilitan la manipulación de datos y sirve como base para almacenar la información en `pandas`.
- **Matplotlib** ofrece potentes capacidades de visualización, que `pandas` aprovecha para crear gráficos y representaciones visuales de los datos.

---

Los datos rectangulares, también llamados **datos tabulares**, son la forma más común de organizar información en ciencia de datos y análisis estadístico.

Estos datos se representan en `pandas` mediante el objeto **DataFrame**.

---

### Primer método fundamental: `head()`

El primer método importante que se debe aprender es `head()`, el cual devuelve las primeras filas de un DataFrame. Es útil para inspeccionar rápidamente la estructura y el contenido inicial del conjunto de datos.

```python
df.head()
```

In [3]:
print("Se imprimen las primeras filas del DataFrame:")
print(df.head())  # Display the first few rows of the DataFrame

Se imprimen las primeras filas del DataFrame:
                                               title  \
0                           Fictional Points of View   
1             Science Fiction and Fantasy Literature   
2               Library of Congress Subject Headings   
3               Library of Congress Subject Headings   
4  Fictional Space in the Modernist and Post-mode...   

                                              author pages  \
0                                     Peter Lamarque   252   
1     R. Reginald, Douglas Menville, Mary A. Burgess   802   
2  Library of Congress. Cataloging Policy and Sup...  1662   
3                                Library of Congress  1512   
4                               Carl Darryl Malmgren   248   

                                   genre  \
0                     Literary Criticism   
1                              Reference   
2  Subject headings, Library of Congress   
3  Subject headings, Library of Congress   
4                       

El método `info()` nos permite visualizar información esencial sobre el DataFrame, incluyendo:

- Los nombres de las columnas.
- Los tipos de datos que contiene cada columna.
- La cantidad de valores no nulos en cada columna (lo que ayuda a identificar si hay valores perdidos).
- La cantidad total de filas y columnas.

Este método es muy útil para obtener una visión general de la estructura y la calidad de los datos antes de realizar cualquier análisis.

```python
df.info()
```

In [4]:
print("Información del DataFrame:")
df.info()  # Display information about the DataFrame

Información del DataFrame:
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 2049 entries, 0 to 2048
Data columns (total 11 columns):
 #   Column          Non-Null Count  Dtype 
---  ------          --------------  ----- 
 0   title           2049 non-null   object
 1   author          2049 non-null   object
 2   pages           2049 non-null   object
 3   genre           2049 non-null   object
 4   description     2049 non-null   object
 5   published_date  2049 non-null   object
 6   publisher       2049 non-null   object
 7   language        2049 non-null   object
 8   average_rating  2049 non-null   object
 9   ratings_count   2049 non-null   int64 
 10  thumbnail       2049 non-null   object
dtypes: int64(1), object(10)
memory usage: 176.2+ KB


El atributo `shape` de un DataFrame devuelve una tupla que indica:

- El número de filas.
- El número de columnas.

Por ejemplo, si el DataFrame tiene 100 filas y 5 columnas, el resultado será `(100, 5)`.

> **Nota:**  
> Como `shape` es un atributo y no un método, se utiliza **sin paréntesis**.

```python
df.shape
```

In [5]:
print("Se imprime la forma del DataFrame:")
print(df.shape)  # Display the shape of the DataFrame

Se imprime la forma del DataFrame:
(2049, 11)


El método `describe()` calcula estadísticas de resumen para las columnas numéricas de un DataFrame, como la media, la mediana, el mínimo, el máximo, los cuartiles y más.

- El resultado incluye el conteo (`count`), que muestra el número de valores no faltantes en cada columna.
- `describe()` es útil para obtener una visión general rápida de la distribución y las características de las variables numéricas en el conjunto de datos.

Por ejemplo:

```python
df.describe()
```

Este método ayuda a identificar rápidamente tendencias y posibles valores atípicos en los datos numéricos.

In [6]:
print("Descripción del DataFrame:")
print(df.describe()) # Display summary statistics of the DataFrame

Descripción del DataFrame:
        ratings_count
count     2049.000000
mean      3704.258663
std      40015.992383
min          0.000000
25%          0.000000
50%          0.000000
75%          0.000000
max    1000000.000000


Los **DataFrames** de pandas están compuestos por tres elementos principales, accesibles mediante atributos:

- El atributo `.values` contiene todos los datos del DataFrame en una matriz bidimensional de **NumPy**, lo que permite realizar operaciones eficientes sobre los datos.
- El atributo `.columns` almacena los nombres de las columnas.
- El atributo `.index` guarda las etiquetas o índices de las filas.

De esta manera, un DataFrame reúne los datos, los nombres de las columnas y las etiquetas de las filas en una estructura unificada y fácil de manipular.

In [7]:
print("Valores del DataFrame:")
print(df.values)  # Display the values of the DataFrame

Valores del DataFrame:
[['Fictional Points of View' 'Peter Lamarque' '252' ... 'No rating' 0
  'http://books.google.com/books/content?id=rh-omr6laV0C&printsec=frontcover&img=1&zoom=1&edge=curl&source=gbs_api']
 ['Science Fiction and Fantasy Literature'
  'R. Reginald, Douglas Menville, Mary A. Burgess' '802' ... 'No rating'
  0
  'http://books.google.com/books/content?id=P8zW2AH6150C&printsec=frontcover&img=1&zoom=1&edge=curl&source=gbs_api']
 ['Library of Congress Subject Headings'
  'Library of Congress. Cataloging Policy and Support Office' '1662' ...
  'No rating' 0
  'http://books.google.com/books/content?id=pEhkh_9bP9wC&printsec=frontcover&img=1&zoom=1&edge=curl&source=gbs_api']
 ...
 ['The Success Principles' 'Jack Canfield' '512' ... '4.2' 100000
  'http://books.google.com/books/content?id=7zL_DwAAQBAJ&printsec=frontcover&img=1&zoom=1&edge=curl&source=gbs_api']
 ['The Courage to Be Rich' 'Suze Orman' '448' ... '4.0' 40000
  'http://books.google.com/books/content?id=2c3_DwAAQBAJ

El atributo `columns` de un DataFrame contiene los nombres de las columnas, mientras que el atributo `index` almacena los números o nombres de las filas.

> **Cuidado:**  
> Las etiquetas de las filas se guardan en el atributo `.index`, **no** en `.rows`.  
> Es importante recordar que el atributo `.index` representa los índices de las filas, y no almacena los datos de las filas en sí.

In [11]:
print("Para ver los nombres de las columnas y los indices:")
print(df.columns)  # Display the column names

print("\n")
print("Para ver los indices de las filas:")
print(df.index)  # Display the row indices

Para ver los nombres de las columnas y los indices:
Index(['title', 'author', 'pages', 'genre', 'description', 'published_date',
       'publisher', 'language', 'average_rating', 'ratings_count',
       'thumbnail'],
      dtype='object')


Para ver los indices de las filas:
RangeIndex(start=0, stop=2049, step=1)
