# Manipulación y limpieza de datos con Pandas

Una vez que estás familiarizado con los conceptos básicos de Pandas, el siguiente paso es aprender a manipular y limpiar datos para prepararlos para el análisis. Pandas ofrece múltiples funciones que hacen que este proceso sea eficiente y efectivo.

## Trabajando con datos faltantes

Los datos faltantes son comunes en conjuntos de datos reales. Pandas ofrece varias maneras de tratar con ellos.


In [1]:
### Identificar datos faltantes


import pandas as pd
import numpy as np

# Creando un DataFrame con datos faltantes
df = pd.DataFrame({'A': [1, np.nan, 3],
                   'B': [4, 5, np.nan],
                   'C': [7, 8, 9]})
print(df)

# Identificar valores nulos
print(df.isnull())

     A    B  C
0  1.0  4.0  7
1  NaN  5.0  8
2  3.0  NaN  9
       A      B      C
0  False  False  False
1   True  False  False
2  False   True  False


### Eliminar filas o columnas con datos faltantes


In [2]:
# Eliminar filas con datos faltantes
df_dropna_rows = df.dropna()
print(df_dropna_rows)

     A    B  C
0  1.0  4.0  7


In [3]:
# Eliminar columnas con datos faltantes
df_dropna_columns = df.dropna(axis=1)
print(df_dropna_columns)

   C
0  7
1  8
2  9


### Rellenar datos faltantes

In [4]:
# Rellenar datos faltantes con un valor fijo
df_filled = df.fillna(0)
print(df_filled)

     A    B  C
0  1.0  4.0  7
1  0.0  5.0  8
2  3.0  0.0  9


## Agrupar datos

Agrupar datos es útil para realizar cálculos sobre subconjuntos de tu dataset.


In [6]:
data = {'Producto': ['Manzanas', 'Naranjas', 'Plátanos', 'Manzanas', 'Naranjas', 'Plátanos'],
        'Ventas': [34, 22, 15, 14, 32, 25]}

df = pd.DataFrame(data)

In [7]:
# Agrupar por producto y sumar las ventas
ventas_por_producto = df.groupby('Producto').sum()
print(ventas_por_producto)

          Ventas
Producto        
Manzanas      48
Naranjas      54
Plátanos      40
