# Data Cleaning and Preparation
## Handling Missing Data
El manejo de datos faltantes es una parte crucial en el análisis de datos. En pandas, los valores faltantes están representados generalmente por NaN (Not a Number) para valores numéricos y None para valores de tipo objeto. Pandas proporciona varias funciones para identificar, eliminar o reemplazar datos faltantes.

### Identificación de Datos Faltantes
| Función | Descripción | Ejemplo de uso |
|---------|-------------|----------------|
| `isna`  | Devuelve una estructura de datos booleana indicando si los valores son nulos (NaN o None) | `df.isna()` |
| `notna` | Devuelve una estructura de datos booleana indicando los valores no nulos | `df.notna()` |

In [33]:
import pandas as pd
import numpy as np

In [34]:
data = pd.Series([1, np.nan, 3, None, 5])
data

0    1.0
1    NaN
2    3.0
3    NaN
4    5.0
dtype: float64

In [35]:
data.isna()

0    False
1     True
2    False
3     True
4    False
dtype: bool

In [36]:
data.notna()

0     True
1    False
2     True
3    False
4     True
dtype: bool

### Eliminación de Datos Faltantes

| Función | Descripción | Ejemplo de uso |
|---------|-------------|----------------|
| `dropna()`| Elimina las filas o columnas con datos faltantes | `df.dropna(axis=0)` (elimina filas) o <br> `df.dropna(axis=1)` (elimina columnas) |

In [37]:
df = pd.DataFrame({
'A': [1, 2, np.nan],
'B': [5, np.nan, np.nan],
'C': [7, 8, 9]
})
df

Unnamed: 0,A,B,C
0,1.0,5.0,7
1,2.0,,8
2,,,9


In [38]:
df.dropna() # Elimina filas con al menos un NaN

Unnamed: 0,A,B,C
0,1.0,5.0,7


In [39]:
df.dropna(axis=1) # Elimina columnas con al menos un NaN

Unnamed: 0,C
0,7
1,8
2,9


### Rellenar Datos Faltantes

| Función | Descripción | Ejemplo de uso |
|---------|-------------|----------------|
| `fillna() ` <br> `ffill()`| Rellena valores nulos con un valor específico o utilizando métodos como interpolación | `df.fillna(0)` o <br> `df.fillna(method='ffill')` <br> `df.ffill()` Método actual para rellenar con el registro de la fila anterior |


In [40]:
df.fillna(0) # Reemplaza por el número en ()

Unnamed: 0,A,B,C
0,1.0,5.0,7
1,2.0,0.0,8
2,0.0,0.0,9


In [41]:
df.ffill() # Reemplaza por el registro anterior

Unnamed: 0,A,B,C
0,1.0,5.0,7
1,2.0,5.0,8
2,2.0,5.0,9


### Reemplazo de Datos Faltantes

| Función    | Descripción | Ejemplo de uso |
|------------|-------------|----------------|
| `replace()`| Reemplaza valores específicos en un DataFrame o Serie | `df.replace(np.nan, 0)`|


In [42]:
df.replace(np.nan, 4) # Reemplaza todos los NaN con 4


Unnamed: 0,A,B,C
0,1.0,5.0,7
1,2.0,4.0,8
2,4.0,4.0,9


In [43]:
df.mean()

A    1.5
B    5.0
C    8.0
dtype: float64

In [44]:
df

Unnamed: 0,A,B,C
0,1.0,5.0,7
1,2.0,,8
2,,,9


In [45]:
df.replace(np.nan, df.mean())

Unnamed: 0,A,B,C
0,1.0,5.0,7
1,2.0,5.0,8
2,1.5,5.0,9


## Data Transformation
La transformación de datos es una de las tareas más comunes en el análisis de datos. pandas proporciona una amplia variedad de herramientas para reordenar, filtrar, modificar y agrupar datos de manera eficiente.

### Eliminar Duplicados

| Función | Descripción | Ejemplo de uso |
|---------|-------------|----------------|
| `duplicated()` | Devuelve una Serie booleana indicando si una fila es duplicada | `df.duplicated()` |
| `drop_duplicates()`| Elimina filas duplicadas | `df.drop_duplicates()` |


In [46]:
df = pd.DataFrame({
'A': ['foo', 'bar', 'foo', 'bar', 'foo'],
'B': [1, 2, 1, 2, 3]
})
df

Unnamed: 0,A,B
0,foo,1
1,bar,2
2,foo,1
3,bar,2
4,foo,3


In [47]:
df.duplicated()

0    False
1    False
2     True
3     True
4    False
dtype: bool

In [48]:
df.drop_duplicates()

Unnamed: 0,A,B
0,foo,1
1,bar,2
4,foo,3


In [49]:
df

Unnamed: 0,A,B
0,foo,1
1,bar,2
2,foo,1
3,bar,2
4,foo,3


### Reemplazar Valores
| Función | Descripción | Ejemplo de uso |
|---------|-------------|----------------|
| `replace()` | Reemplaza valores específicos | `df.replace('foo', 'baz')` |

In [50]:
df.replace('foo', 'baz', inplace=True)

In [51]:
df['A'] = df['A'].replace({'baz':'si', 'bar':'no'})
df

Unnamed: 0,A,B
0,si,1
1,no,2
2,si,1
3,no,2
4,si,3


### Renombrar Índices o Columnas

| Función | Descripción | Ejemplo de uso |
|---------|-------------|----------------|
| `rename()` | Cambia los nombres de columnas o índices | `df.rename(columns={'A':'Category'})` |


In [52]:
df.rename(columns={'A': 'Category'})

Unnamed: 0,Category,B
0,si,1
1,no,2
2,si,1
3,no,2
4,si,3


### Mapear o Aplicar Funciones a Columnas


| Función | Descripción | Ejemplo de uso |
|---------|-------------|----------------|
| `map()` | Aplica una función o diccionario de reemplazo a una columna Serie | `df['A'].map({'foo': 'FOO','bar': 'BAR'})` |
| `apply()` | Aplica una función a cada columna o fila del DataFrame | `df.apply(np.sum)` (aplica una suma por columnas) |
| `applymap()`<br> `map() `| Aplica una función elemento por elemento en un DataFrame | `df.applymap(lambda x: x *2)` <br> `df.map()` Nueva forma|

In [53]:
# Usando map para reemplazar valores en una columna
df['A'].map({'foo': 'FOO', 'bar':'BAR'})

0    NaN
1    NaN
2    NaN
3    NaN
4    NaN
Name: A, dtype: object

In [54]:
df

Unnamed: 0,A,B
0,si,1
1,no,2
2,si,1
3,no,2
4,si,3


In [55]:
# Usando apply para sumar por columnas
df.apply(lambda x: x.sum())

A    sinosinosi
B             9
dtype: object

In [56]:
# Usando applymap para multiplicar cada valor por 2
df.map(lambda x: x * 2)

Unnamed: 0,A,B
0,sisi,2
1,nono,4
2,sisi,2
3,nono,4
4,sisi,6


***Transformar a mayúculas o minúsculas usando `.apply()` y `.map()`***

In [57]:
df1 = pd.DataFrame({
    'col1': ['hola', 'mundo'],
    'col2': ['python', 'pandas'],
    'col3': [1, 2],
    'col4': ['texto', 'cadena']
})
df1

Unnamed: 0,col1,col2,col3,col4
0,hola,python,1,texto
1,mundo,pandas,2,cadena


In [58]:
# Convertir a mayúsculas solo las columnas de tipo str
df1 = df1.apply(lambda col: col.map(str.upper) if col.dtypes == 'object' else col)
df1

Unnamed: 0,col1,col2,col3,col4
0,HOLA,PYTHON,1,TEXTO
1,MUNDO,PANDAS,2,CADENA


In [59]:
df1 = df1.apply(lambda col: col.map(str.lower) if col.dtypes == 'object' else col)
df1

Unnamed: 0,col1,col2,col3,col4
0,hola,python,1,texto
1,mundo,pandas,2,cadena


### Discretización y Binning

| Función | Descripción | Ejemplo de uso |
|---------|-------------|----------------|
| `cut()` | Divide los datos en intervalos o bins | `pd.cut(df['B'], bins=[0, 1, 2, 3])` |
| `qcut()` | Divide los datos en quantiles | `pd.qcut(df['B'], q=4)` |

In [60]:
df

Unnamed: 0,A,B
0,si,1
1,no,2
2,si,1
3,no,2
4,si,3


In [61]:
pd.cut(df['B'],bins=[0, 1, 2, 3]) 

0    (0, 1]
1    (1, 2]
2    (0, 1]
3    (1, 2]
4    (2, 3]
Name: B, dtype: category
Categories (3, interval[int64, right]): [(0, 1] < (1, 2] < (2, 3]]

In [62]:
pd.qcut(df['B'], q=2)

0    (0.999, 2.0]
1    (0.999, 2.0]
2    (0.999, 2.0]
3    (0.999, 2.0]
4      (2.0, 3.0]
Name: B, dtype: category
Categories (2, interval[float64, right]): [(0.999, 2.0] < (2.0, 3.0]]

### Detección y Filtrado con Expresiones Condicionales

| Función | Descripción | Ejemplo de uso |
|---------|-------------|----------------|
| Filtrado con condicionales | Filtra filas basadas en condiciones lógicas | `df[df['A'] == 'foo']` |

In [63]:
# Filtrar filas donde 'A' es 'foo'
df[df['A'] == 'foo'] 

Unnamed: 0,A,B
