# Transformando Datos

## Valores Faltantes

### .filna()
Permite reemplazar los valores faltantes NaN en un dataframe

```python
DataFrame.fillna(value=None, method=None, axis=None, inplace=False, limit=None, downcast=None)
```
- **value**: Especifica el valor o un diccionario de valores con los que deseas reemplazar los NaN.
Puede ser un valor escalar (por ejemplo, un número o una cadena) o un diccionario/mapa para asignar valores específicos a cada columna.
- **inplace**: Si es True, modifica el objeto original en lugar de devolver uno nuevo.
Por defecto es False.

In [2]:
import pandas as pd
import numpy as np

data = {
    'A': [1, 2, np.nan, 4],
    'B': [np.nan, 2, 3, np.nan],
    'C': [1, np.nan, np.nan, 4]
}

df = pd.DataFrame(data)
print(df)

#Reemplazar valores NaN con 0.
df_filled = df.fillna(0)
print(df_filled)

#Reemplazar valores NaN en A con 0, en B con 99 y en C con -1
df_filled = df.fillna({'A': 0, 'B': 99, 'C': -1})
print(df_filled)

     A    B    C
0  1.0  NaN  1.0
1  2.0  2.0  NaN
2  NaN  3.0  NaN
3  4.0  NaN  4.0
     A    B    C
0  1.0  0.0  1.0
1  2.0  2.0  0.0
2  0.0  3.0  0.0
3  4.0  0.0  4.0
     A     B    C
0  1.0  99.0  1.0
1  2.0   2.0 -1.0
2  0.0   3.0 -1.0
3  4.0  99.0  4.0


### .groupby()
Funciona similar al group by de SQL pero en un dataframe.
```python
DataFrame.groupby(by=None, axis=0, level=None, as_index=True, sort=True, group_keys=True, observed=False, dropna=True)
```
- **by**: Especifica las claves para agrupar los datos. Puede ser:
    - Una columna o lista de columnas.
    - Una función que se aplique al índice o a las columnas.
    - Un diccionario o Serie para mapear valores.
- **axis**: Determina si agrupar por filas (axis=0, por defecto) o columnas (axis=1).

In [6]:
import pandas as pd

data = {
    'Producto': ['Camisa', 'Camisa', 'Pantalón', 'Pantalón', 'Zapatos'],
    'Tienda': ['A', 'B', 'A', 'B', 'A'],
    'Ventas': [100, 200, 150, 250, 300]
}

df = pd.DataFrame(data)
print(df)

#Agrupa por la columna 'Producto' y halla la suma agregada de las demas columnas.
grouped = df.groupby('Producto')['Ventas'].sum()
print(grouped)

   Producto Tienda  Ventas
0    Camisa      A     100
1    Camisa      B     200
2  Pantalón      A     150
3  Pantalón      B     250
4   Zapatos      A     300
Producto
Camisa      300
Pantalón    400
Zapatos     300
Name: Ventas, dtype: int64


### .apply()
Permite aplicar una función a lo largo de las filas o columnas de un DataFrame, se debe especificar si se aplica por columnas (0) o por filas (1). Es mucho mas eficiente que hacerlo en un loop pero no mas eficiente que una funcion vectorizada de numpy o pandas.



In [7]:
import pandas as pd

# Crear un DataFrame de ejemplo
df = pd.DataFrame({
    'A': [1, 2, 3],
    'B': [4, 5, 6],
    'C': [7, 8, 9]
})

# Aplicar una función a cada columna
result = df.apply(max, axis=0)

print(result)

# Salida
# A    3
# B    6
# C    9

A    3
B    6
C    9
dtype: int64
