# Manejo de datos ausentes

### `pandas` toma a los valores `NaN` y `None` como valores ausentes. La función `pandas.isnull()` se puede usar para determinar si existen valores ausentes en los datos.

In [2]:
import numpy as np
import pandas as pd

In [3]:
df = pd.DataFrame({
    'VarA': ['aa', None, 'cc'],
    'VarB': [20, 30, None],
    'VarC': [1234, 3456, 6789]
    }, 
    index = ['Caso1','Caso2','Caso3']
)

df

Unnamed: 0,VarA,VarB,VarC
Caso1,aa,20.0,1234
Caso2,,30.0,3456
Caso3,cc,,6789


In [4]:
pd.isnull(df)

Unnamed: 0,VarA,VarB,VarC
Caso1,False,False,False
Caso2,True,False,False
Caso3,False,True,False


### Debemos decidir si descartamos las filas que incluyen valores ausentes, esto lo conseguimos usando el método `.dropna()`:

In [5]:
df.dropna(subset=["VarA",'VarB'])

Unnamed: 0,VarA,VarB,VarC
Caso1,aa,20.0,1234


### Otra opción es sustituir los valores `NaN` con un valor determinado, para esto usamos el método `.fillna()` .

In [6]:
df.fillna("")

Unnamed: 0,VarA,VarB,VarC
Caso1,aa,20.0,1234
Caso2,,30.0,3456
Caso3,cc,,6789


In [7]:
df.fillna(df.mean())

TypeError: can only concatenate str (not "int") to str

In [8]:
df.fillna(25)

Unnamed: 0,VarA,VarB,VarC
Caso1,aa,20.0,1234
Caso2,25,30.0,3456
Caso3,cc,25.0,6789


# Crear DataSet aleatorio

In [12]:
def CrearDataSet(Num=1):
    
    Output = []
    
    for i in range(Num):
        
        # Crear un rango de fechas semanal (De lunes a lunes) Fechas misiones
        rng = pd.date_range(start='1/1/2023', end='12/31/2023', freq='W-MON')
        
        # Crear valores aleatorios
        data = np.random.randint(low=25,high=1000,size=len(rng))
        
        # Estados posibles, Existo, Fracaso, EnEstudio
        status = [1,2,3]
        
        # Lista de estatus aleatorios
        random_status = [status[np.random.randint(low=0,high=len(status))] for i in range(len(rng))]
        
        # Misiones posibles
        misions = ['Marte','Luna','Jupiter','Saturno','AsteroideX','PlanetaY']
        
        # Crear una lista aleatoria de misions
        random_misions= [misions[np.random.randint(low=0,high=len(misions))] for i in range(len(rng))]
        
        #extend similar a append
        #zip crea un objeto iterable. En la primera fila metera todos los elementos
        #que se hallaban en la primera posicion de cada uno de los argumentos que le pasamos
        #a la funcion
        Output.extend(zip(random_misions, random_status, data, rng))
        
    return Output

In [13]:
dataset = CrearDataSet(4)

df = pd.DataFrame(data=dataset, 
                  columns=['Mision','Estado','Recursos','Fecha'])
df

Unnamed: 0,Mision,Estado,Recursos,Fecha
0,PlanetaY,1,602,2023-01-02
1,PlanetaY,1,258,2023-01-09
2,Luna,1,517,2023-01-16
3,Saturno,2,966,2023-01-23
4,AsteroideX,1,731,2023-01-30
...,...,...,...,...
203,PlanetaY,3,233,2023-11-27
204,Marte,1,626,2023-12-04
205,AsteroideX,1,331,2023-12-11
206,Saturno,2,265,2023-12-18
