# 5. Manipulando Datos

## Valores Faltantes

### .filna()
Permite reemplazar los valores faltantes NaN en un dataframe

```python
DataFrame.fillna(value=None, method=None, axis=None, inplace=False, limit=None, downcast=None)
```
- **value**: Especifica el valor o un diccionario de valores con los que deseas reemplazar los NaN.
Puede ser un valor escalar (por ejemplo, un número o una cadena) o un diccionario/mapa para asignar valores específicos a cada columna.
- **inplace**: Si es True, modifica el objeto original en lugar de devolver uno nuevo.
Por defecto es False.

In [None]:
import pandas as pd
import numpy as np

data = {
    'A': [1, 2, np.nan, 4],
    'B': [np.nan, 2, 3, np.nan],
    'C': [1, np.nan, np.nan, 4]
}

df = pd.DataFrame(data)
print(df)

#Reemplazar valores NaN con 0.
df_filled = df.fillna(0)
print(df_filled)

#Reemplazar valores NaN en A con 0, en B con 99 y en C con -1
df_filled = df.fillna({'A': 0, 'B': 99, 'C': -1})
print(df_filled)

## dropna()
El método `.dropna()` en pandas se utiliza para eliminar filas o columnas que contienen valores faltantes (`NaN`) en un DataFrame o Serie.

**Parámetros principales:**
- `axis`: Determina si se eliminan filas (`0`, por defecto) o columnas (`1`).
- `how`:
  - `'any'` (por defecto): Elimina la fila/columna si al menos un valor es `NaN`.
  - `'all'`: Elimina solo si todos los valores son `NaN`.
- `subset`: Especifica columnas para considerar al buscar `NaN`.
- `inplace`: Si es `True`, modifica el objeto original.

## Eliminando Duplicados
Se puede utilizar la función `drop_duplicates()` para remover filas duplicadas en dataframes o series.

- **subset**: Especifica las columnas a considerar para identificar duplicados. Por defecto, se consideran todas las columnas.
- **keep**: Determina qué duplicados conservar:
    - 'first' (por defecto): Conserva la primera ocurrencia.
    - 'last': Conserva la última ocurrencia.
    - False: Elimina todas las filas duplicadas.
- **inplace**: Si es True, modifica el DataFrame original. Por defecto es False.
- **ignore_index**: Si es True, reinicia el índice del DataFrame resultante. Por defecto es False.

In [None]:
import pandas as pd
import numpy as np

df = pd.DataFrame({
    'A': [1, np.nan, 3],
    'B': [4, 5, np.nan]
})

# Elimina filas con al menos un NaN
df_sin_nan = df.dropna()
print(df_sin_nan)

# Elimina columnas con al menos un NaN
df_sin_nan_col = df.dropna(axis=1)
print(df_sin_nan_col)

In [None]:
import pandas as pd

# DataFrame de ejemplo.
data = {
    'Name': ['Alice', 'Bob', 'Alice', 'Charlie', 'Bob'],
    'Age': [25, 30, 25, 35, 30],
    'City': ['NY', 'LA', 'NY', 'SF', 'LA']
}
df = pd.DataFrame(data)

# Eliminar duplicados. Teniendo en cuenta toda la fila.
df_no_duplicates = df.drop_duplicates()

# Eliminar duplicados teniendo en cuenta la columna 'Name', manteniendo la ultima ocurrencia.
df_no_duplicates_name = df.drop_duplicates(subset='Name', keep='last')

print(df_no_duplicates)
print(df_no_duplicates_name)

## .value_counts()
Se utiliza para contar la cantidad de ocurrencias únicas de los valores en una Serie o columna de un DataFrame.
- **Ordenado**: Los resultados se ordenan de mayor a menor frecuencia por defecto.
- **normalize**: Si se establece en True, devuelve las proporciones en lugar de los conteos absolutos.
- **sort**: Si es False, no ordena los resultados.
- **ascending**: Si es True, ordena de menor a mayor frecuencia.
- **dropna**: Si es False, incluye los valores NaN en el conteo.

In [None]:
import pandas as pd

# Crear una Serie de ejemplo
data = pd.Series(['manzana', 'pera', 'manzana', 'naranja', 'pera', 'manzana'])

# Contar las ocurrencias de cada valor
conteo = data.value_counts()

# Contar las ocurrencias como proporciones
proporciones = data.value_counts(normalize=True)

print(conteo)
print(proporciones)

### .groupby()
Funciona similar al group by de SQL pero en un dataframe. Se puede agrupar por uno o varias columnas y aplicar funciones.
```python
DataFrame.groupby(by=None, axis=0, level=None, as_index=True, sort=True, group_keys=True, observed=False, dropna=True)
```
- **by**: Especifica las claves para agrupar los datos. Puede ser:
    - Una columna o lista de columnas.
    - Una función que se aplique al índice o a las columnas.
    - Un diccionario o Serie para mapear valores.
- **axis**: Determina si agrupar por filas (axis=0, por defecto) o columnas (axis=1).

In [5]:
import pandas as pd

data = {
    'Producto': ['Camisa', 'Camisa', 'Pantalón', 'Pantalón', 'Zapatos'],
    'Tienda': ['A', 'B', 'A', 'B', 'A'],
    'Ventas': [100, 200, 150, 250, 300]
}

df = pd.DataFrame(data)
print(df)

# Suma de las ventas agrupadas por producto.
sum_producto = df.groupby('Producto')['Ventas'].sum()
print(sum_producto)

# Promedio de ventas por producto.
mean_producto = df.groupby('Producto')['Ventas'].mean()
print(mean_producto)

# Tambien se pueden calcular al tiempo.
some_sts = df.groupby('Producto')['Ventas'].agg(['min', 'max', 'sum'])
print(some_sts)

   Producto Tienda  Ventas
0    Camisa      A     100
1    Camisa      B     200
2  Pantalón      A     150
3  Pantalón      B     250
4   Zapatos      A     300
Producto
Camisa      300
Pantalón    400
Zapatos     300
Name: Ventas, dtype: int64
Producto
Camisa      150.0
Pantalón    200.0
Zapatos     300.0
Name: Ventas, dtype: float64
          min  max  sum
Producto               
Camisa    100  200  300
Pantalón  150  250  400
Zapatos   300  300  300


### .apply()
Permite aplicar una función a lo largo de las filas o columnas de un DataFrame, se debe especificar si se aplica por columnas (0) o por filas (1). Es mucho mas eficiente que hacerlo en un loop pero no mas eficiente que una funcion vectorizada de numpy o pandas.



In [None]:
import pandas as pd

# Crear un DataFrame de ejemplo
df = pd.DataFrame({
    'A': [1, 2, 3],
    'B': [4, 5, 6],
    'C': [7, 8, 9]
})

# Aplicar una función a cada columna
result = df.apply(max, axis=0)

print(result)

# Salida
# A    3
# B    6
# C    9

## Pivot Table
Se utiliza para resumir y reorganizar datos en un DataFrame, similar a las tablas dinámicas en Excel. Permite agrupar datos, aplicar funciones de agregación y reorganizar columnas y filas.

```python
DataFrame.pivot_table(values=None, index=None, columns=None, aggfunc='mean', fill_value=None, margins=False, margins_name='All', dropna=True)
```
- **values**: Especifica las columnas cuyos valores se quieren agregar. Si no se especifica, se usan todas las columnas numéricas.
- **index**: Las columnas que se usarán como filas en la tabla pivote.
- **columns**: Las columnas que se usarán como encabezados de las columnas en la tabla pivote.
- **aggfunc**: La función de agregación que se aplicará (por defecto es 'mean'). Ejemplos: 'sum', 'count', 'min', 'max'.
- **fill_value**: Valor con el que se llenarán los datos faltantes (NaN).
- **margins**: Si es True, agrega filas y columnas con totales.
- **margins_name**: Nombre de las filas/columnas de totales (por defecto 'All').

In [4]:
import pandas as pd

# Crear un DataFrame de ejemplo
data = {
    'Producto': ['Camisa', 'Camisa', 'Pantalón', 'Pantalón', 'Zapatos'],
    'Tienda': ['A', 'B', 'A', 'B', 'A'],
    'Ventas': [100, 200, 150, 250, 300]
}

df = pd.DataFrame(data)

# Crear una tabla pivote
pivot = df.pivot_table(values='Ventas', index='Producto', columns='Tienda', aggfunc='sum', fill_value=0)

print(pivot)

Tienda      A    B
Producto          
Camisa    100  200
Pantalón  150  250
Zapatos   300    0
