#Agregar o eliminar datos con pandas

Pandas ofrece utilidades muy sencillas para poder eleminar y/o agregar elementos a los dataframes

In [51]:
import pandas as pd
import numpy as np

df_books = pd.read_csv("../data/bestsellers-with-categories.csv")

# Metdo head

La función head se utiliza para ver las primeras filas de un DataFrame. Esto es útil para obtener una vista rápida de la estructura de tus datos y verificar su contenido.

- Sintaxis

`df.head(n=5)`

- Ejemplo

```
import pandas as pd

# Crear un DataFrame de ejemplo
data = {'Nombre': ['Ana', 'Luis', 'Marta', 'Carlos', 'Eva'],
        'Edad': [23, 45, 34, 30, 28]}
df = pd.DataFrame(data)

# Mostrar las primeras 3 filas
print(df.head(3))
```

Esto mostrara:

```
   Nombre  Edad
0     Ana    23
1    Luis    45
2   Marta    34
```

## Eliminar columnas

- drop

La función drop se utiliza para eliminar filas o columnas de un DataFrame.

    - Sintanxis

    `df.drop(labels, axis=0, inplace=False)`
     
- **`labels`**: Etiquetas de los índices de las filas o nombres de las columnas a eliminar.
- **`axis`**: Eje a lo largo del cual eliminar. 0 para filas y 1 para columnas.
- **`inplace`**: Si es True, realiza la operación en el DataFrame original sin devolver una copia. Por defecto es False.

Por ejemplo
    

In [3]:
df_books.head()

Unnamed: 0,Name,Author,User Rating,Reviews,Price,Year,Genre
0,10-Day Green Smoothie Cleanse,JJ Smith,4.7,17350,8,2016,Non Fiction
1,11/22/63: A Novel,Stephen King,4.6,2052,22,2011,Fiction
2,12 Rules for Life: An Antidote to Chaos,Jordan B. Peterson,4.7,18979,15,2018,Non Fiction
3,1984 (Signet Classics),George Orwell,4.7,21424,6,2017,Fiction
4,"5,000 Awesome Facts (About Everything!) (Natio...",National Geographic Kids,4.8,7665,12,2019,Non Fiction


- Eliminar columnas

- Como primer parametyro pasamos el nombre de la columna a eliminar
- Como segundo el axis que en este caso corresponde al eje 1 es decir a las columnas

In [4]:
df_books.drop("Name", axis=1).head(5)

Unnamed: 0,Author,User Rating,Reviews,Price,Year,Genre
0,JJ Smith,4.7,17350,8,2016,Non Fiction
1,Stephen King,4.6,2052,22,2011,Fiction
2,Jordan B. Peterson,4.7,18979,15,2018,Non Fiction
3,George Orwell,4.7,21424,6,2017,Fiction
4,National Geographic Kids,4.8,7665,12,2019,Non Fiction


Con esta sintaxis de drop unicamente eliminamos a la hora de ejecutar el script mas no se eleimina por completo del dataframe.

In [5]:
df_books.head(5)


Unnamed: 0,Name,Author,User Rating,Reviews,Price,Year,Genre
0,10-Day Green Smoothie Cleanse,JJ Smith,4.7,17350,8,2016,Non Fiction
1,11/22/63: A Novel,Stephen King,4.6,2052,22,2011,Fiction
2,12 Rules for Life: An Antidote to Chaos,Jordan B. Peterson,4.7,18979,15,2018,Non Fiction
3,1984 (Signet Classics),George Orwell,4.7,21424,6,2017,Fiction
4,"5,000 Awesome Facts (About Everything!) (Natio...",National Geographic Kids,4.8,7665,12,2019,Non Fiction



Para hacer que se elimine del dataframe agregamos el atributo `inplace` con valor de `True`.

In [36]:
copy_df_books = df_books
copy_df_books

Unnamed: 0,Name,Author,User Rating,Reviews,Price,Year,Genre
0,10-Day Green Smoothie Cleanse,JJ Smith,4.7,17350,8,2016,Non Fiction
1,11/22/63: A Novel,Stephen King,4.6,2052,22,2011,Fiction
2,12 Rules for Life: An Antidote to Chaos,Jordan B. Peterson,4.7,18979,15,2018,Non Fiction
3,1984 (Signet Classics),George Orwell,4.7,21424,6,2017,Fiction
4,"5,000 Awesome Facts (About Everything!) (Natio...",National Geographic Kids,4.8,7665,12,2019,Non Fiction
...,...,...,...,...,...,...,...
545,Wrecking Ball (Diary of a Wimpy Kid Book 14),Jeff Kinney,4.9,9413,8,2019,Fiction
546,You Are a Badass: How to Stop Doubting Your Gr...,Jen Sincero,4.7,14331,8,2016,Non Fiction
547,You Are a Badass: How to Stop Doubting Your Gr...,Jen Sincero,4.7,14331,8,2017,Non Fiction
548,You Are a Badass: How to Stop Doubting Your Gr...,Jen Sincero,4.7,14331,8,2018,Non Fiction


In [37]:
copy_df_books.drop("Year", axis=1, inplace=True)

Despues de ejecutar el drop observamos que si se vio afectado el dataframe sobre el cual se ejecuto.

In [38]:
copy_df_books.head(3)

Unnamed: 0,Name,Author,User Rating,Reviews,Price,Genre
0,10-Day Green Smoothie Cleanse,JJ Smith,4.7,17350,8,Non Fiction
1,11/22/63: A Novel,Stephen King,4.6,2052,22,Fiction
2,12 Rules for Life: An Antidote to Chaos,Jordan B. Peterson,4.7,18979,15,Non Fiction


Existe otra forma de eliminar columnas sin afectar el dataframe original, y sin uso del parametro `inplace`, y es asiganar a una varoiable la ejecucion de esta funcion.

In [41]:
df_books

Unnamed: 0,Name,Author,User Rating,Reviews,Price,Genre
0,10-Day Green Smoothie Cleanse,JJ Smith,4.7,17350,8,Non Fiction
1,11/22/63: A Novel,Stephen King,4.6,2052,22,Fiction
2,12 Rules for Life: An Antidote to Chaos,Jordan B. Peterson,4.7,18979,15,Non Fiction
3,1984 (Signet Classics),George Orwell,4.7,21424,6,Fiction
4,"5,000 Awesome Facts (About Everything!) (Natio...",National Geographic Kids,4.8,7665,12,Non Fiction
...,...,...,...,...,...,...
545,Wrecking Ball (Diary of a Wimpy Kid Book 14),Jeff Kinney,4.9,9413,8,Fiction
546,You Are a Badass: How to Stop Doubting Your Gr...,Jen Sincero,4.7,14331,8,Non Fiction
547,You Are a Badass: How to Stop Doubting Your Gr...,Jen Sincero,4.7,14331,8,Non Fiction
548,You Are a Badass: How to Stop Doubting Your Gr...,Jen Sincero,4.7,14331,8,Non Fiction


In [43]:
df_books_whitout_year = df_books.drop("Year", axis=1)

In [44]:
df_books_whitout_year.head(2)

Unnamed: 0,Name,Author,User Rating,Reviews,Price,Genre
0,10-Day Green Smoothie Cleanse,JJ Smith,4.7,17350,8,Non Fiction
1,11/22/63: A Novel,Stephen King,4.6,2052,22,Fiction


In [45]:
df_books.head(2)

Unnamed: 0,Name,Author,User Rating,Reviews,Price,Year,Genre
0,10-Day Green Smoothie Cleanse,JJ Smith,4.7,17350,8,2016,Non Fiction
1,11/22/63: A Novel,Stephen King,4.6,2052,22,2011,Fiction


De esta forma nuestro dataframe original no se ve afectado con las operaciones drop.

## Eliminar filas

Se empleara el mismo metodo con los mismos argumentos pero con la diferencia de que indicamos que el axis es 0, y en lugar de nombres de etiquetas, indicamos el numero de fila a eliminar, identificandolas por su indice.


In [49]:
df_books.head(5)

Unnamed: 0,Name,Author,User Rating,Reviews,Price,Year,Genre
0,10-Day Green Smoothie Cleanse,JJ Smith,4.7,17350,8,2016,Non Fiction
1,11/22/63: A Novel,Stephen King,4.6,2052,22,2011,Fiction
2,12 Rules for Life: An Antidote to Chaos,Jordan B. Peterson,4.7,18979,15,2018,Non Fiction
3,1984 (Signet Classics),George Orwell,4.7,21424,6,2017,Fiction
4,"5,000 Awesome Facts (About Everything!) (Natio...",National Geographic Kids,4.8,7665,12,2019,Non Fiction


In [48]:
df_books.drop(1, axis=0).head(5)

Unnamed: 0,Name,Author,User Rating,Reviews,Price,Year,Genre
0,10-Day Green Smoothie Cleanse,JJ Smith,4.7,17350,8,2016,Non Fiction
2,12 Rules for Life: An Antidote to Chaos,Jordan B. Peterson,4.7,18979,15,2018,Non Fiction
3,1984 (Signet Classics),George Orwell,4.7,21424,6,2017,Fiction
4,"5,000 Awesome Facts (About Everything!) (Natio...",National Geographic Kids,4.8,7665,12,2019,Non Fiction
5,A Dance with Dragons (A Song of Ice and Fire),George R. R. Martin,4.4,12643,11,2011,Fiction


In [50]:
df_books_whitout_rows= df_books.drop(0, axis=0)
df_books_whitout_rows.head(5)

Unnamed: 0,Name,Author,User Rating,Reviews,Price,Year,Genre
1,11/22/63: A Novel,Stephen King,4.6,2052,22,2011,Fiction
2,12 Rules for Life: An Antidote to Chaos,Jordan B. Peterson,4.7,18979,15,2018,Non Fiction
3,1984 (Signet Classics),George Orwell,4.7,21424,6,2017,Fiction
4,"5,000 Awesome Facts (About Everything!) (Natio...",National Geographic Kids,4.8,7665,12,2019,Non Fiction
5,A Dance with Dragons (A Song of Ice and Fire),George R. R. Martin,4.4,12643,11,2011,Fiction


# Agregar datos

En estos ejemplos utilizaremos numpy para agregar filas y columnas a un dataframe ya creado.
## Agregando columnas

- **Agregar una columna**
En este ejemplo utilizaremos la notacion de corchetes para indicar el nombre de la columna a agregar y por medio de numpy indicameremos el valor que tendra cada entrada, en este caso nan.

> **`[]`**:Los corchetes se utilizan para acceder a una columna específica dentro del DataFrame. En este caso, se accede a la columna existente o se crea una nueva si no existe.

In [53]:
df_books['Nueva Columna'] = np.nan
df_books.head(5)

Unnamed: 0,Name,Author,User Rating,Reviews,Price,Year,Genre,Nueva Columna
0,10-Day Green Smoothie Cleanse,JJ Smith,4.7,17350,8,2016,Non Fiction,
1,11/22/63: A Novel,Stephen King,4.6,2052,22,2011,Fiction,
2,12 Rules for Life: An Antidote to Chaos,Jordan B. Peterson,4.7,18979,15,2018,Non Fiction,
3,1984 (Signet Classics),George Orwell,4.7,21424,6,2017,Fiction,
4,"5,000 Awesome Facts (About Everything!) (Natio...",National Geographic Kids,4.8,7665,12,2019,Non Fiction,


Este código crea una nueva columna llamada "Nueva Columna" en el DataFrame df_books y llena todas las celdas de esa columna con valores NaN, indicando que no hay datos disponibles para esa columna en particular.

- **Agregar columna con valores**

En este ejemplo relizaremos algo mas interesante.

Obtendremos la catidad de filas de nuestro dataframe y crearemos otra columna a partir de estos valores en donde cada columna tendra asignado el numero a la que pertenece.

Por medio de shape sabremos la cantidad de filas, recibira como parametro 0 ya que hace referencia al exis de las filas.

In [55]:
data = df_books.shape[0]
data

550

Ahora almacenaremos en data un rango que va desde 0 hasta la cantidad de elementos del dataframe.

In [56]:
data = np.arange(0, df_books.shape[0])
data

array([  0,   1,   2,   3,   4,   5,   6,   7,   8,   9,  10,  11,  12,
        13,  14,  15,  16,  17,  18,  19,  20,  21,  22,  23,  24,  25,
        26,  27,  28,  29,  30,  31,  32,  33,  34,  35,  36,  37,  38,
        39,  40,  41,  42,  43,  44,  45,  46,  47,  48,  49,  50,  51,
        52,  53,  54,  55,  56,  57,  58,  59,  60,  61,  62,  63,  64,
        65,  66,  67,  68,  69,  70,  71,  72,  73,  74,  75,  76,  77,
        78,  79,  80,  81,  82,  83,  84,  85,  86,  87,  88,  89,  90,
        91,  92,  93,  94,  95,  96,  97,  98,  99, 100, 101, 102, 103,
       104, 105, 106, 107, 108, 109, 110, 111, 112, 113, 114, 115, 116,
       117, 118, 119, 120, 121, 122, 123, 124, 125, 126, 127, 128, 129,
       130, 131, 132, 133, 134, 135, 136, 137, 138, 139, 140, 141, 142,
       143, 144, 145, 146, 147, 148, 149, 150, 151, 152, 153, 154, 155,
       156, 157, 158, 159, 160, 161, 162, 163, 164, 165, 166, 167, 168,
       169, 170, 171, 172, 173, 174, 175, 176, 177, 178, 179, 18

Ahora esta data la asignaremos a una columna.

In [57]:
df_books["Rango"] = data
df_books.head(5)

Unnamed: 0,Name,Author,User Rating,Reviews,Price,Year,Genre,Nueva Columna,Rango
0,10-Day Green Smoothie Cleanse,JJ Smith,4.7,17350,8,2016,Non Fiction,,0
1,11/22/63: A Novel,Stephen King,4.6,2052,22,2011,Fiction,,1
2,12 Rules for Life: An Antidote to Chaos,Jordan B. Peterson,4.7,18979,15,2018,Non Fiction,,2
3,1984 (Signet Classics),George Orwell,4.7,21424,6,2017,Fiction,,3
4,"5,000 Awesome Facts (About Everything!) (Natio...",National Geographic Kids,4.8,7665,12,2019,Non Fiction,,4


De esta forma observamos las dos columnas agregadas recientemente.
>Todo rango que se vaya a agregar con este metodo debve tener la misma cantidad de filas, de lo contrario nos arrojara un error.

## Agregar filas

- **Funcion append**

La función append de Pandas es una herramienta fundamental para combinar y manipular DataFrames de forma eficiente. Permite agregar filas de un DataFrame a otro, creando un nuevo DataFrame con la información concatenada. Esta función es útil para integrar datos de diferentes fuentes o para construir DataFrames de forma incremental.

- **Sintaxis**

`df1.append(other, ignore_index=False)`

- **`other`**: Otro DataFrame o Series a agregar.
- **`ignore_index`**: Si es True, no usa los índices de las filas añadidas y reasigna los índices.
- **`sort`**: Si es True, ordena las columnas al hacer la concatenación.

Ejemplo:

```
nueva_fila = pd.DataFrame({'Nombre': ['Pedro'], 'Edad': [40]})

# Agregar la nueva fila al DataFrame original
df_con_nueva_fila = df.append(nueva_fila, ignore_index=True)
```