| **Inicio** | **atrás 1** | **Siguiente 3** |
|----------- |-------------- |---------------|
| [🏠](../../../README.md) | [⏪](./1.INTRODUCCION_A_NUMPY.ipynb)| [⏩](./3.VISUALIZACION_EN_PYTHON_(MATPLOTLIB).ipynb)|

# **2. INTRODUCCIÓN A PANDAS**

## **Series y dataframes**

En la biblioteca de Python llamada pandas, se encuentran dos estructuras de datos fundamentales: la Serie (Series) y el DataFrame (DataFrame).

* **Serie (Series):**

Una Serie es una estructura de datos unidimensional que puede contener cualquier tipo de datos, como números, cadenas de texto, fechas, etc. Puede verse como una columna en una tabla o una matriz de una sola dimensión. Cada elemento en una Serie tiene una etiqueta asociada llamada índice.

Ejemplo:

In [1]:
import pandas as pd

# Crear una Serie a partir de una lista
data = [10, 20, 30, 40, 50]
serie = pd.Series(data)

print(serie)
# Salida:
# 0    10
# 1    20
# 2    30
# 3    40
# 4    50
# dtype: int64

0    10
1    20
2    30
3    40
4    50
dtype: int64


* **DataFrame (DataFrame):**

Un `DataFrame` es una estructura de datos bidimensional que puede almacenar y manipular datos tabulares con filas y columnas etiquetadas. Puede verse como una tabla en una base de datos o una matriz de dos dimensiones. Cada columna en un `DataFrame` es una Serie.

Ejemplo:

In [2]:
import pandas as pd

# Crear un DataFrame a partir de un diccionario
data = {'Nombre': ['Juan', 'María', 'Pedro'],
        'Edad': [25, 30, 35],
        'Ciudad': ['Madrid', 'Barcelona', 'Valencia']}
df = pd.DataFrame(data)

print(df)
# Salida:
#   Nombre  Edad      Ciudad
# 0   Juan    25      Madrid
# 1  María    30  Barcelona
# 2  Pedro    35    Valencia

  Nombre  Edad     Ciudad
0   Juan    25     Madrid
1  María    30  Barcelona
2  Pedro    35   Valencia


Las Series y los DataFrames son estructuras de datos poderosas que ofrecen diversas funcionalidades para el análisis y manipulación de datos. Algunas operaciones comunes que se pueden realizar con ellos incluyen la selección y filtrado de datos, el cálculo de estadísticas descriptivas, la manipulación de columnas, el manejo de valores faltantes, la fusión y concatenación de datos, entre otros.

Además, pandas proporciona numerosos métodos y funciones para realizar tareas específicas en Series y DataFrames, como operaciones aritméticas, agregaciones, ordenamiento, agrupación, fusiones, entre otros.

En resumen, las Series y los DataFrames de pandas son estructuras de datos flexibles y eficientes para trabajar con datos tabulares en Python. Son ampliamente utilizados en análisis de datos, manipulación de datos, preparación de datos y tareas de modelado y visualización de datos.

## **Indexado y manejo de archivos separados por comas (CSV)**

El indexado y manejo de archivos separados por comas (CSV) es una parte fundamental en el procesamiento y análisis de datos. El formato CSV se utiliza ampliamente para almacenar y compartir conjuntos de datos tabulares.

En Python, la biblioteca pandas proporciona una forma fácil y eficiente de trabajar con archivos CSV. A continuación se muestra una explicación detallada de cómo realizar el indexado y manejo de archivos CSV utilizando pandas:

* **Indexado de archivos CSV:**

Para leer un archivo `CSV` en un DataFrame de `pandas`, puedes utilizar la función `read_csv()`. Esta función lee el archivo CSV y lo carga en un DataFrame. Por defecto, la primera fila del archivo CSV se considera como la fila de encabezado y se utiliza como nombres de columna en el DataFrame.

Ejemplo:

In [None]:
import pandas as pd

# Leer archivo CSV en un DataFrame
df = pd.read_csv('datos.csv')

# Mostrar el contenido del DataFrame
print(df)

* **Acceso y manipulación de datos en un DataFrame:**

Una vez que has cargado el archivo CSV en un DataFrame, puedes acceder y manipular los datos utilizando diferentes técnicas de indexado. Algunas operaciones comunes incluyen:

**Acceder a una columna específica:**

In [None]:
# Acceder a una columna por su nombre
columna = df['Nombre de la Columna']

# Acceder a varias columnas
columnas = df[['Columna1', 'Columna2']]

**Acceder a una fila específica por su índice:**

In [None]:
fila = df.loc[indice]

**Filtrar filas basado en una condición:**

In [None]:
filas_filtradas = df[df['Columna'] > valor]

**Realizar operaciones en columnas:**

In [None]:
df['Nueva Columna'] = df['Columna1'] + df['Columna2']

* **Guardar un DataFrame en un archivo CSV:**

Si deseas guardar un DataFrame modificado en un archivo CSV, puedes utilizar el método `to_csv()`. Este método permite especificar el nombre del archivo y otros parámetros, como el separador de campos, el formato de los números, etc.

Ejemplo:

In [None]:
# Guardar el DataFrame en un archivo CSV
df.to_csv('nuevo_datos.csv', index=False)

El indexado y manejo de archivos CSV con pandas proporciona una forma poderosa de trabajar con datos tabulares en Python. Te permite cargar, manipular, filtrar y guardar datos fácilmente. Además, pandas ofrece muchas más funcionalidades, como el manejo de valores faltantes, la agrupación de datos, el cálculo de estadísticas, entre otros, que pueden ayudarte en el análisis y procesamiento de datos.

## **Formato de lectura para cargar y guardar dataframes**

Al cargar y guardar DataFrames en pandas, existen diferentes formatos de lectura y escritura disponibles. Estos formatos permiten leer y escribir datos en diversos formatos, como `CSV`, `Excel`, `SQL`, `JSON`, entre otros. A continuación, se presenta una explicación detallada de algunos de los formatos más comunes:

1. **CSV (Comma Separated Values):**

El formato `CSV` es ampliamente utilizado y es muy sencillo de leer y escribir. Los archivos `CSV` almacenan datos en formato tabular, donde cada columna se separa por comas y cada fila representa un registro de datos. Pandas proporciona la función `read_csv()` para leer archivos `CSV` y el método `to_csv()` para guardar un DataFrame en formato `CSV`.

Ejemplo de lectura:

In [None]:
import pandas as pd

# Leer archivo CSV en un DataFrame
df = pd.read_csv('datos.csv')

Ejemplo de escritura:

In [None]:
# Guardar DataFrame en un archivo CSV
df.to_csv('nuevo_datos.csv', index=False)

2. **Excel:**

Pandas también permite leer y escribir archivos en formato `Excel`. Para leer un archivo Excel, puedes utilizar la función `read_excel()`, y para guardar un `DataFrame` en formato `Excel`, puedes utilizar el método `to_excel()`.

Ejemplo de lectura:

In [None]:
# Leer archivo Excel en un DataFrame
df = pd.read_excel('datos.xlsx', sheet_name='Hoja1')

Ejemplo de escritura:

In [None]:
# Guardar DataFrame en un archivo Excel
df.to_excel('nuevo_datos.xlsx', sheet_name='Hoja1', index=False)

3. **SQL (Structured Query Language):**

Pandas es capaz de conectarse a bases de datos `SQL` y ejecutar consultas para leer y escribir datos. Puedes utilizar la función `read_sql()` para ejecutar consultas `SQL` y cargar los resultados en un `DataFrame`, y el método `to_sql()` para guardar un `DataFrame` en una tabla `SQL`.

Ejemplo de lectura:

In [None]:
import pandas as pd
import sqlite3

# Conexión a la base de datos
conn = sqlite3.connect('database.db')

# Consulta SQL
query = "SELECT * FROM tabla"

# Leer datos desde la base de datos en un DataFrame
df = pd.read_sql(query, conn)

Ejemplo de escritura:

In [None]:
# Guardar DataFrame en una tabla de la base de datos
df.to_sql('tabla_nueva', conn, if_exists='replace', index=False)

4. **JSON (JavaScript Object Notation):**

El formato `JSON` es ampliamente utilizado para el intercambio de datos en aplicaciones web. Pandas permite leer y escribir datos en formato `JSON`. Puedes utilizar la función `read_json()` para leer datos `JSON` y cargarlos en un `DataFrame`, y el método `to_json()` para guardar un `DataFrame` en formato `JSON`.

Ejemplo de lectura:

In [None]:
import pandas as pd

# Leer datos JSON en un DataFrame
df = pd.read_json('datos.json')

Ejemplo de escritura:

In [None]:
# Guardar DataFrame en un archivo JSON
df.to_json('nuevo_datos.json', orient='records')

Estos son solo algunos ejemplos de los formatos de lectura y escritura disponibles en pandas. La biblioteca también admite otros formatos, como HTML, HDF5, Parquet, entre otros. La elección del formato dependerá del tipo de datos y de cómo desees utilizarlos.

## **Manipulación de dataframes**

La manipulación de DataFrames en pandas es una parte fundamental del análisis de datos. Permite realizar diversas operaciones para seleccionar, filtrar, transformar y combinar datos. A continuación, se presenta una explicación detallada de algunas operaciones comunes de manipulación de DataFrames en pandas, junto con ejemplos de código:

1. **Selección de columnas:**

Para seleccionar una o varias columnas de un `DataFrame`, puedes utilizar la sintaxis de corchetes `[]` o el método `loc[]`. Ambos métodos permiten seleccionar columnas por su nombre.

Ejemplo:

In [None]:
import pandas as pd

# Selección de una columna utilizando corchetes
columna1 = df['nombre_columna1']

# Selección de múltiples columnas utilizando corchetes
columnas = df[['nombre_columna1', 'nombre_columna2']]

# Selección de una columna utilizando el método loc[]
columna1 = df.loc[:, 'nombre_columna1']

2. **Filtrado de filas:**

Para filtrar filas en función de ciertas condiciones, puedes utilizar operadores lógicos y la sintaxis de corchetes `[]`. También puedes utilizar el método `loc[]` para realizar filtros más complejos.

Ejemplo:

In [None]:
import pandas as pd

# Filtrado utilizando una condición
df_filtrado = df[df['nombre_columna'] > 10]

# Filtrado utilizando múltiples condiciones
df_filtrado = df[(df['nombre_columna1'] > 10) & (df['nombre_columna2'] < 5)]

# Filtrado utilizando el método loc[]
df_filtrado = df.loc[df['nombre_columna'] > 10, ['nombre_columna1', 'nombre_columna2']]

3. **Agregación de datos:**

Para realizar operaciones de agregación en un DataFrame, como sumas, promedios o conteos, puedes utilizar el método `groupby()` junto con una función de agregación.

Ejemplo:

In [None]:
import pandas as pd

# Agrupación y suma de valores por categoría
df_agregado = df.groupby('categoria')['valor'].sum()

# Agrupación y promedio de valores por categoría
df_agregado = df.groupby('categoria')['valor'].mean()

# Agrupación y conteo de valores por categoría
df_agregado = df.groupby('categoria').size()

4. **Ordenamiento de datos:**

Para ordenar un DataFrame en función de una columna o varias columnas, puedes utilizar el método `sort_values()`. Puedes especificar el orden ascendente o descendente utilizando el parámetro `ascending`.

Ejemplo:

In [None]:
import pandas as pd

# Ordenamiento ascendente por una columna
df_ordenado = df.sort_values('nombre_columna')

# Ordenamiento descendente por una columna
df_ordenado = df.sort_values('nombre_columna', ascending=False)

# Ordenamiento por múltiples columnas
df_ordenado = df.sort_values(['nombre_columna1', 'nombre_columna2'])

5. **Combinación de DataFrames:**

Para combinar dos o más DataFrames en función de una columna o índice común, puedes utilizar el método `merge()`.

Ejemplo:

In [None]:
import pandas as pd

# Combinación de DataFrames por una columna común
df_combinado = pd.merge(df1, df2, on='columna_comun')

# Combinación de DataFrames por múltiples columnas comunes
df_combinado = pd.merge(df1, df2, on=['columna_comun1', 'columna_comun2'])

## **Seleccionar columnas**

In [1]:
import pandas as pd

# Creación del DataFrame
data = {'Nombre': ['Juan', 'María', 'Pedro'],
        'Edad': [25, 30, 35],
        'Ciudad': ['Madrid', 'Barcelona', 'Valencia']}
df = pd.DataFrame(data)

# Seleccionar una columna por nombre
columna_nombre = df['Nombre']
print(columna_nombre)

# Seleccionar múltiples columnas por nombre
columnas_edad_ciudad = df[['Edad', 'Ciudad']]
print(columnas_edad_ciudad)

0     Juan
1    María
2    Pedro
Name: Nombre, dtype: object
   Edad     Ciudad
0    25     Madrid
1    30  Barcelona
2    35   Valencia


El código creará un DataFrame con tres columnas: '`Nombre`', '`Edad`' y '`Ciudad`'. Luego, se seleccionará la columna '`Nombre`' utilizando `df['Nombre']` y se almacenará en la variable `columna_nombre`. La impresión de `columna_nombre` mostrará los valores de esa columna:

```
0     Juan
1    María
2    Pedro
Name: Nombre, dtype: object
```

Además, se seleccionarán las columnas '`Edad`' y '`Ciudad`' utilizando `df[['Edad', 'Ciudad']]` y se almacenarán en la variable `columnas_edad_ciudad`. La impresión de `columnas_edad_ciudad` mostrará las dos columnas seleccionadas:

```
   Edad     Ciudad
0    25     Madrid
1    30  Barcelona
2    35   Valencia
```

Puedes modificar el código y los nombres de las columnas según tus necesidades para seleccionar las columnas deseadas de tu DataFrame.

## **Seleccionar filas por valor**

Por supuesto, aquí tienes un ejemplo de cómo seleccionar filas por valor en un DataFrame. Además, crearé el DataFrame para que puedas probarlo:

In [2]:
import pandas as pd

# Creación del DataFrame
data = {'Nombre': ['Juan', 'María', 'Pedro', 'Ana'],
        'Edad': [25, 30, 35, 28],
        'Ciudad': ['Madrid', 'Barcelona', 'Valencia', 'Madrid']}
df = pd.DataFrame(data)

# Seleccionar filas donde el valor de la columna 'Ciudad' sea 'Madrid'
filas_madrid = df[df['Ciudad'] == 'Madrid']
print(filas_madrid)

# Seleccionar filas donde el valor de la columna 'Edad' sea mayor que 30
filas_edad_mayor_30 = df[df['Edad'] > 30]
print(filas_edad_mayor_30)

  Nombre  Edad  Ciudad
0   Juan    25  Madrid
3    Ana    28  Madrid
  Nombre  Edad    Ciudad
2  Pedro    35  Valencia


En este ejemplo, el DataFrame tiene tres columnas: '`Nombre`', '`Edad`' y '`Ciudad`', y cuatro filas de datos. Luego, se utilizan condiciones para seleccionar filas específicas:

* Para seleccionar filas donde el valor de la columna '`Ciudad`' sea '`Madrid`', utilizamos `df[df['Ciudad'] == 'Madrid']`. Esto creará un nuevo DataFrame llamado `filas_madrid` que contiene solo las filas donde el valor de la columna '`Ciudad`' sea 'Madrid'. La impresión de `filas_madrid` mostrará las filas seleccionadas:

```
  Nombre  Edad  Ciudad
0   Juan    25  Madrid
3    Ana    28  Madrid
```

* Para seleccionar filas donde el valor de la columna '`Edad`' sea mayor que `30`, utilizamos `df[df['Edad'] > 30]`. Esto creará un nuevo DataFrame llamado `filas_edad_mayor_30` que contiene solo las filas donde el valor de la columna '`Edad`' sea mayor que `30`. La impresión de `filas_edad_mayor_30` mostrará las filas seleccionadas:

```
  Nombre  Edad    Ciudad
2  Pedro    35  Valencia
```

Puedes ajustar las condiciones y los nombres de columna según tus necesidades para seleccionar las filas deseadas en tu DataFrame.

## **Seleccionar filas por índice**

In [3]:
import pandas as pd

# Creación del DataFrame
data = {'Nombre': ['Juan', 'María', 'Pedro', 'Ana'],
        'Edad': [25, 30, 35, 28],
        'Ciudad': ['Madrid', 'Barcelona', 'Valencia', 'Sevilla']}
df = pd.DataFrame(data, index=['A', 'B', 'C', 'D'])
print(df)

# Seleccionar una fila por índice
fila_a = df.loc['A']
print(fila_a)

# Seleccionar varias filas por índices
filas_bc = df.loc[['B', 'C']]
print(filas_bc)

  Nombre  Edad     Ciudad
A   Juan    25     Madrid
B  María    30  Barcelona
C  Pedro    35   Valencia
D    Ana    28    Sevilla
Nombre      Juan
Edad          25
Ciudad    Madrid
Name: A, dtype: object
  Nombre  Edad     Ciudad
B  María    30  Barcelona
C  Pedro    35   Valencia


En este ejemplo, el DataFrame tiene tres columnas: '`Nombre`', '`Edad`' y '`Ciudad`', y cuatro filas de datos con índices '`A`', '`B`', '`C`' y '`D`'. Luego, se utilizan los índices para seleccionar filas específicas:

* Para seleccionar una fila por índice, utilizamos `df.loc['A']` donde '`A`' es el índice de la fila que deseamos seleccionar. Esto devuelve una Serie que contiene los valores de la fila correspondiente. La impresión de `fila_a` mostrará la fila seleccionada:

```
Nombre       Juan
Edad           25
Ciudad    Madrid
Name: A, dtype: object
```

* Para seleccionar varias filas por índices, utilizamos `df.loc[['B', 'C']]` donde `['B', 'C']` son los índices de las filas que deseamos seleccionar. Esto devuelve un nuevo DataFrame que contiene las filas seleccionadas. La impresión de `filas_bc` mostrará las filas seleccionadas:

```
  Nombre  Edad     Ciudad
B  María    30  Barcelona
C  Pedro    35   Valencia
```

Puedes ajustar los índices y los nombres de columna según tus necesidades para seleccionar las filas deseadas en tu DataFrame.

## **Cambiar tipos de columnas**

In [4]:
import pandas as pd

# Creación del DataFrame
data = {'Nombre': ['Juan', 'María', 'Pedro', 'Ana'],
        'Edad': [25, 30, 35, 28],
        'Ciudad': ['Madrid', 'Barcelona', 'Valencia', 'Sevilla']}
df = pd.DataFrame(data)
print(df)
print(df.dtypes)

# Cambiar el tipo de columna 'Edad' a float
df['Edad'] = df['Edad'].astype(float)
print(df.dtypes)

# Cambiar el tipo de columna 'Nombre' a categoría
df['Nombre'] = df['Nombre'].astype('category')
print(df.dtypes)

  Nombre  Edad     Ciudad
0   Juan    25     Madrid
1  María    30  Barcelona
2  Pedro    35   Valencia
3    Ana    28    Sevilla
Nombre    object
Edad       int64
Ciudad    object
dtype: object
Nombre     object
Edad      float64
Ciudad     object
dtype: object
Nombre    category
Edad       float64
Ciudad      object
dtype: object


En este ejemplo, el DataFrame tiene tres columnas: '`Nombre`', '`Edad`' y '`Ciudad`'. El tipo de datos de cada columna se muestra usando `df.dtypes`.

* Para cambiar el tipo de columna '`Edad`' a `float`, utilizamos `df['Edad'] = df['Edad'].astype(float)`. Esto convertirá los valores de la columna '`Edad`' en números de punto flotante.

* Para cambiar el tipo de columna '`Nombre`' a categoría, utilizamos `df['Nombre'] = df['Nombre'].astype('category')`. Esto convertirá los valores de la columna '`Nombre`' en categorías, lo que puede ser útil para columnas con un número limitado de valores únicos.

Después de cada cambio de tipo de columna, podemos verificar los nuevos tipos de datos utilizando `df.dtypes`.

La salida del código será la siguiente:

```
  Nombre  Edad     Ciudad
0   Juan    25     Madrid
1  María    30  Barcelona
2  Pedro    35   Valencia
3    Ana    28    Sevilla
Nombre    object
Edad       int64
Ciudad    object
dtype: object

Nombre     object
Edad      float64
Ciudad     object
dtype: object

Nombre    category
Edad       float64
Ciudad      object
dtype: object
```

Puedes ajustar los nombres de columna y los tipos de datos según tus necesidades en tu DataFrame. Recuerda que algunos cambios de tipo de columna pueden requerir que los datos sean coherentes con el nuevo tipo.

## **Concatenar dataframes**

In [5]:
import pandas as pd

# Creación de los DataFrames
df1 = pd.DataFrame({'A': [1, 2, 3],
                    'B': [4, 5, 6]})
df2 = pd.DataFrame({'A': [7, 8, 9],
                    'B': [10, 11, 12]})

# Concatenación por filas (eje 0)
df_concat_rows = pd.concat([df1, df2])
print("Concatenación por filas:")
print(df_concat_rows)

# Concatenación por columnas (eje 1)
df_concat_cols = pd.concat([df1, df2], axis=1)
print("\nConcatenación por columnas:")
print(df_concat_cols)

Concatenación por filas:
   A   B
0  1   4
1  2   5
2  3   6
0  7  10
1  8  11
2  9  12

Concatenación por columnas:
   A  B  A   B
0  1  4  7  10
1  2  5  8  11
2  3  6  9  12


En este ejemplo, creamos dos DataFrames, `df1` y `df2`, con columnas '`A`' y '`B`'. Luego utilizamos la función `pd.concat()` para concatenarlos.

* Para concatenar por filas, es decir, unir los DataFrames uno debajo del otro, usamos `pd.concat([df1, df2])`. Por defecto, la concatenación se realiza a lo largo del eje 0, que corresponde a las filas. El resultado se guarda en `df_concat_rows`.

* Para concatenar por columnas, es decir, unir los DataFrames lado a lado, usamos `pd.concat([df1, df2], axis=1)`. Especificamos `axis=1` para indicar que queremos concatenar a lo largo del eje `1`, que corresponde a las columnas. El resultado se guarda en `df_concat_cols`.

La salida del código será la siguiente:

```
Concatenación por filas:
   A   B
0  1   4
1  2   5
2  3   6
0  7  10
1  8  11
2  9  12

Concatenación por columnas:
   A  B  A   B
0  1  4  7  10
1  2  5  8  11
2  3  6  9  12
```

Puedes ajustar los nombres de columna y los datos según tus necesidades en tus DataFrames. Además, ten en cuenta que la concatenación puede realizarse en función de los índices existentes o se pueden generar nuevos índices.

## **Agregar, eliminar, editar filas y columnas**

In [6]:
import pandas as pd

# Creación del DataFrame
data = {'Nombre': ['Juan', 'María', 'Pedro'],
        'Edad': [25, 30, 35],
        'Ciudad': ['México', 'Madrid', 'Lima']}
df = pd.DataFrame(data)
print("DataFrame original:")
print(df)

# Agregar una nueva columna
df['Género'] = ['M', 'F', 'M']
print("\nDataFrame con una nueva columna:")
print(df)

# Eliminar una columna
df = df.drop('Ciudad', axis=1)
print("\nDataFrame sin la columna 'Ciudad':")
print(df)

# Agregar una nueva fila
nueva_fila = {'Nombre': 'Luisa', 'Edad': 28, 'Género': 'F'}
df = df.append(nueva_fila, ignore_index=True)
print("\nDataFrame con una nueva fila:")
print(df)

# Editar el valor de una celda
df.at[2, 'Edad'] = 36
print("\nDataFrame con el valor de la celda editado:")
print(df)

DataFrame original:
  Nombre  Edad  Ciudad
0   Juan    25  México
1  María    30  Madrid
2  Pedro    35    Lima

DataFrame con una nueva columna:
  Nombre  Edad  Ciudad Género
0   Juan    25  México      M
1  María    30  Madrid      F
2  Pedro    35    Lima      M

DataFrame sin la columna 'Ciudad':
  Nombre  Edad Género
0   Juan    25      M
1  María    30      F
2  Pedro    35      M

DataFrame con una nueva fila:
  Nombre  Edad Género
0   Juan    25      M
1  María    30      F
2  Pedro    35      M
3  Luisa    28      F

DataFrame con el valor de la celda editado:
  Nombre  Edad Género
0   Juan    25      M
1  María    30      F
2  Pedro    36      M
3  Luisa    28      F


  df = df.append(nueva_fila, ignore_index=True)


En este ejemplo, creamos un DataFrame `df` con tres columnas: '`Nombre`', '`Edad`' y '`Ciudad`'. Luego, realizamos las siguientes operaciones:

* **Agregar una nueva columna:** Usamos la sintaxis `df['Nueva Columna'] = [...]` para agregar una nueva columna al DataFrame. En este caso, agregamos la columna '`Género`' con valores '`M`', '`F`' y '`M`' respectivamente para cada fila.

* **Eliminar una columna:** Utilizamos el método `drop()` para eliminar una columna del `DataFrame`. Especificamos el nombre de la columna y `axis=1` para indicar que queremos eliminar una columna en lugar de una fila.

* **Agregar una nueva fila:** Creamos un diccionario `nueva_fila` con los valores de las columnas para la nueva fila. Luego, utilizamos el método `append()` para agregar la nueva fila al DataFrame. Es importante establecer `ignore_index=True` para que se generen nuevos índices para las filas.

* **Editar el valor de una celda:** Usamos el método `at[]` para acceder a una celda específica del DataFrame y modificar su valor. Especificamos el índice de la fila y el nombre de la columna para acceder a la celda deseada.

La salida del código será la siguiente:

```
DataFrame original:
  Nombre  Edad   Ciudad
0   Juan    25   México
1  María    30   Madrid
2  Pedro    35     Lima

DataFrame con una nueva columna:
  Nombre  Edad   Ciudad Género
0   Juan    25   México      M
1  María    30   Madrid      F
2  Pedro    35     Lima      M

DataFrame sin la columna 'Ciudad':
  Nombre  Edad Género
0   Juan    25      M
1  María    30      F
2  Pedro    35      M

DataFrame con una nueva fila:
  Nombre  Edad Género
0   Juan    25      M
1  María    30      F
2  Pedro    35      M
3  Luisa    28      F

DataFrame con el valor de la celda editado:
  Nombre  Edad Género
0   Juan    25      M
1  María    30      F
2  Pedro    36      M
3  Luisa    28      F
```

## **Funciones matemáticas en Pandas**

En pandas, puedes aplicar varias funciones matemáticas a los datos de un DataFrame. Estas funciones te permiten realizar cálculos estadísticos y operaciones matemáticas en columnas o filas específicas. Aquí tienes una explicación detallada con ejemplos:

In [7]:
import pandas as pd

# Creación del DataFrame
data = {'Nombre': ['Juan', 'María', 'Pedro', 'Luisa'],
        'Edad': [25, 30, 35, 28],
        'Altura': [170, 165, 180, 160]}
df = pd.DataFrame(data)
print("DataFrame original:")
print(df)

# Funciones estadísticas básicas
print("\nSuma de la columna 'Edad':", df['Edad'].sum())
print("Promedio de la columna 'Altura':", df['Altura'].mean())
print("Mínimo de la columna 'Edad':", df['Edad'].min())
print("Máximo de la columna 'Altura':", df['Altura'].max())

# Funciones matemáticas
df['Altura_metros'] = df['Altura'] / 100
df['Edad_doble'] = df['Edad'] * 2
print("\nDataFrame con nuevas columnas:")
print(df)

# Operaciones entre columnas
df['Diferencia_edad_altura'] = df['Edad'] - df['Altura']
print("\nDataFrame con una nueva columna calculada:")
print(df)

DataFrame original:
  Nombre  Edad  Altura
0   Juan    25     170
1  María    30     165
2  Pedro    35     180
3  Luisa    28     160

Suma de la columna 'Edad': 118
Promedio de la columna 'Altura': 168.75
Mínimo de la columna 'Edad': 25
Máximo de la columna 'Altura': 180

DataFrame con nuevas columnas:
  Nombre  Edad  Altura  Altura_metros  Edad_doble
0   Juan    25     170           1.70          50
1  María    30     165           1.65          60
2  Pedro    35     180           1.80          70
3  Luisa    28     160           1.60          56

DataFrame con una nueva columna calculada:
  Nombre  Edad  Altura  Altura_metros  Edad_doble  Diferencia_edad_altura
0   Juan    25     170           1.70          50                    -145
1  María    30     165           1.65          60                    -135
2  Pedro    35     180           1.80          70                    -145
3  Luisa    28     160           1.60          56                    -132


En este ejemplo, creamos un DataFrame `df` con tres columnas: '`Nombre`', '`Edad`' y '`Altura`'. Luego, aplicamos las siguientes operaciones:

* **Funciones estadísticas básicas:** Utilizamos las funciones `sum()`, `mean()`, `min()` y `max()` para realizar cálculos estadísticos en las columnas del DataFrame. Por ejemplo, calculamos la suma de la columna '`Edad`' usando `df['Edad'].sum()` y el promedio de la columna '`Altura`' usando `df['Altura'].mean()`.

* **Funciones matemáticas:** Podemos realizar operaciones matemáticas en las columnas del DataFrame. En este caso, dividimos la columna '`Altura`' por 100 y asignamos el resultado a una nueva columna '`Altura_metros`' usando `df['Altura'] / 100`. También multiplicamos la columna '`Edad`' por 2 y asignamos el resultado a una nueva columna '`Edad_doble`' usando `df['Edad'] * 2`.

* **Operaciones entre columnas:** Podemos realizar operaciones aritméticas entre columnas y asignar el resultado a una nueva columna. En este ejemplo, restamos la columna '`Altura`' de la columna '`Edad`' y asignamos el resultado a una nueva columna '`Diferencia_edad_altura`' usando `df['Edad'] - df['Altura']`.

La salida del código será la siguiente:

```
DataFrame original:
  Nombre  Edad  Altura
0   Juan    25     170
1  María    30     165
2  Pedro    35     180
3  Luisa    28     160

Suma de la columna 'Edad': 118
Promedio de la columna 'Altura': 168.75
Mínimo de la columna 'Edad': 25
Máximo de la columna 'Altura': 180

DataFrame con nuevas columnas:
  Nombre  Edad  Altura  Altura_metros  Edad_doble
0   Juan    25     170           1.70          50
1  María    30     165           1.65          60
2  Pedro    35     180           1.80          70
3  Luisa    28     160           1.60          56

DataFrame con una nueva columna calculada:
  Nombre  Edad  Altura  Altura_metros  Edad_doble  Diferencia_edad_altura
0   Juan    25     170           1.70          50                    -145
1  María    30     165           1.65          60                    -135
2  Pedro    35     180           1.80          70                    -145
3  Luisa    28     160           1.60          56                    -132
```

En resumen, las funciones matemáticas en pandas te permiten realizar cálculos estadísticos, operaciones matemáticas y operaciones entre columnas en un DataFrame de manera eficiente. Estas funciones son útiles para el análisis y procesamiento de datos en proyectos de ciencia de datos.

## **Operadores en Pandas**

En pandas, puedes utilizar una variedad de operadores para realizar diferentes manipulaciones en los DataFrames. Estos operadores te permiten realizar tareas como filtrar datos, realizar cálculos, combinar DataFrames y más. Aquí tienes una explicación detallada con ejemplos:

In [8]:
import pandas as pd

# Creación del DataFrame
data = {'Nombre': ['Juan', 'María', 'Pedro', 'Luisa'],
        'Edad': [25, 30, 35, 28],
        'Altura': [170, 165, 180, 160]}
df = pd.DataFrame(data)
print("DataFrame original:")
print(df)

# Operador de igualdad
igualdad = df['Edad'] == 30
print("\nOperador de igualdad:")
print(igualdad)

# Operador de mayor que
mayor_que = df['Altura'] > 165
print("\nOperador de mayor que:")
print(mayor_que)

# Operador de menor o igual que
menor_igual_que = df['Edad'] <= 28
print("\nOperador de menor o igual que:")
print(menor_igual_que)

# Operador de combinación de condiciones
condicion = (df['Edad'] > 25) & (df['Altura'] < 180)
print("\nOperador de combinación de condiciones:")
print(condicion)

# Operador de negación
negacion = ~(df['Edad'] == 30)
print("\nOperador de negación:")
print(negacion)

# Operador de selección de columnas
columnas = df[['Nombre', 'Edad']]
print("\nOperador de selección de columnas:")
print(columnas)

# Operador de asignación
df['Altura_cm'] = df['Altura'] / 100
print("\nDataFrame con nueva columna:")
print(df)

DataFrame original:
  Nombre  Edad  Altura
0   Juan    25     170
1  María    30     165
2  Pedro    35     180
3  Luisa    28     160

Operador de igualdad:
0    False
1     True
2    False
3    False
Name: Edad, dtype: bool

Operador de mayor que:
0     True
1    False
2     True
3    False
Name: Altura, dtype: bool

Operador de menor o igual que:
0     True
1    False
2    False
3     True
Name: Edad, dtype: bool

Operador de combinación de condiciones:
0    False
1     True
2    False
3     True
dtype: bool

Operador de negación:
0     True
1    False
2     True
3     True
Name: Edad, dtype: bool

Operador de selección de columnas:
  Nombre  Edad
0   Juan    25
1  María    30
2  Pedro    35
3  Luisa    28

DataFrame con nueva columna:
  Nombre  Edad  Altura  Altura_cm
0   Juan    25     170       1.70
1  María    30     165       1.65
2  Pedro    35     180       1.80
3  Luisa    28     160       1.60


En este ejemplo, creamos un DataFrame `df` con tres columnas: '`Nombre`', '`Edad`' y '`Altura`'. A continuación, aplicamos los siguientes operadores:

* **Operador de igualdad:** Utilizamos el operador `==` para verificar si los valores de la columna '`Edad`' son iguales a `30`. Esto devuelve una serie de valores booleanos que indican si la condición se cumple o no.

* **Operador de mayor que:** Utilizamos el operador `>` para verificar si los valores de la columna '`Altura`' son mayores que `165`. Esto también devuelve una serie de valores booleanos.

* **Operador de menor o igual que:** Utilizamos el operador `<=` para verificar si los valores de la columna '`Edad`' son menores o iguales a `28`. Al igual que los ejemplos anteriores, esto devuelve una serie de valores booleanos.

* **Operador de combinación de condiciones:** Utilizamos los operadores `>` y `<` junto con el operador `&` para combinar dos condiciones. En este caso, verificamos si los valores de la columna '`Edad`' son mayores a `25` y los valores de la columna '`Altura`' son menores a `180`.

* **Operador de negación:** Utilizamos el operador `~` para negar una condición. En este ejemplo, negamos la condición de que los valores de la columna '`Edad`' sean iguales a `30`.

* **Operador de selección de columnas:** Utilizamos el operador `[]` para seleccionar columnas específicas del DataFrame. En este caso, seleccionamos las columnas '`Nombre`' y '`Edad`'.

* **Operador de asignación:** Utilizamos el operador `=` para asignar nuevos valores a una columna existente o crear una nueva columna. En este ejemplo, dividimos los valores de la columna '`Altura`' por `100` y los asignamos a una nueva columna llamada '`Altura_cm`'.

Recuerda que estos son solo algunos ejemplos de operadores disponibles en pandas. Hay muchos más operadores y funciones que puedes utilizar para manipular y analizar tus datos en DataFrames.

| **Inicio** | **atrás 1** | **Siguiente 3** |
|----------- |-------------- |---------------|
| [🏠](../../../README.md) | [⏪](./1.INTRODUCCION_A_NUMPY.ipynb)| [⏩](./3.VISUALIZACION_EN_PYTHON_(MATPLOTLIB).ipynb)|