# Gestionando datos perdidos

Ocurre con frecuencia, y desgraciadamente, la obtención de datos anómalos o incluso la ausencia de muestras.

Por ejemplo, los datos obtenidos a partir de encuestas: preguntas sin responder, preguntas con respuestas "raras", etc.

**Hay que aceptarlo y saber gestionarlo**

En Pandas, los valores perdidos se les asigna el código: NaN (Not a Number), los objetos son designados como: None y las fechas como NaT.

Las operaciones que gestionen este tipo de datos también generarán los correspondientes códigos: NaN, None o NaT.

¡Vamos a trabajar con estos valores!



In [3]:
import pandas as pd

## Contenido

- M2_0 Introducción a la estructura DataFrame: características, carga y acceso.**
- M2_1 Creación y Almacenamiento.
- M2_2 Visualización con pandas.
- M2_3 Otras operaciones con DataFrames: agrupaciones de datos.
- **M2_4 Gestionando datos perdidos**.
- M2_5 Series temporales.

In [4]:
#Empezamos cargando datos: who.csv con 358 columnas!
df = pd.read_csv("data/who.csv")
df = df[["Country",df.columns[-2]]]
print(df[:5])

       Country  Urban_population_growth
0  Afghanistan                     5.44
1      Albania                     2.21
2      Algeria                     2.61
3      Andorra                      NaN
4       Angola                     4.14


In [6]:
# Atención: Si el fichero es MUY pesado es recomendable cargar solo la información que nos interesa
# https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.read_csv.html
df = pd.read_csv("data/who.csv", usecols=["Country","Urban_population_growth"])
print(df[:5])

       Country  Urban_population_growth
0  Afghanistan                     5.44
1      Albania                     2.21
2      Algeria                     2.61
3      Andorra                      NaN
4       Angola                     4.14


In [8]:
#¿Qué columnas tienen datos "NaX"?
# https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.isna.html
print(df.columns[df.isna().any()])

Index(['Urban_population_growth'], dtype='object')


In [31]:
#No dudéis en ejecutar "partes" (dividamos la instrucción para comprenderla)
print df.isna()[:5]

   Country  Urban_population_growth
0    False                    False
1    False                    False
2    False                    False
3    False                     True
4    False                    False


In [36]:
#¿Cuántas muestras son correctas? 
print pd.notna(df).sum() #**
print "Total de muestras: ",len(df)

Country                    202
Urban_population_growth    188
dtype: int64
Total de muestras:  202


In [39]:
#La manera más optima de remplazar estos valores es con la función: fillna
print df.fillna(0)[:5]


       Country  Urban_population_growth
0  Afghanistan                     5.44
1      Albania                     2.21
2      Algeria                     2.61
3      Andorra                     0.00
4       Angola                     4.14


In [40]:
df = df.fillna(0) #Atención: recordad que tenéis que hacer la asignación si queréis aplicar la operación

#### Cuando los dataframes contienen números la operabildad con valores perdidos puede gestionarse de manera más eficiente
Pongamos un ejemplo

In [39]:
import numpy as np
df.two = pd.DataFrame(np.random.randn(5, 3), 
                     index=['a', 'b', 'c', 'd', 'e'],
                     columns=['one', 'two', 'three'])
print(df.two)

        one       two     three
a -0.188029 -1.439183 -1.673940
b -0.678719 -1.369691 -1.675561
c  1.470844  0.373619 -0.942060
d  1.082727  0.293328  0.535404
e  0.074285  1.067871 -0.472113


In [40]:
#Creamos valores NaN para testear 
df.two[df.two<0]=np.nan
print(df.two)

        one       two     three
a       NaN       NaN       NaN
b       NaN       NaN       NaN
c  1.470844  0.373619       NaN
d  1.082727  0.293328  0.535404
e  0.074285  1.067871       NaN


In [99]:
# y por si las moscas, no nos fiémos del aleatorio.
df.iloc[0,0] = np.nan
print df

        one       two     three
a       NaN  0.653799       NaN
b       NaN       NaN  0.444465
c  1.077637  0.814909       NaN
d       NaN       NaN  0.832263
e       NaN  0.054621       NaN


#### Podemos usar fillNA para rellenar de manera elegante los valores. Por ejemplo, usando la media

In [41]:
print(df)
print("-"*33)
df.fillna(df.mean())

                Country  Urban_population_growth
0           Afghanistan                     5.44
1               Albania                     2.21
2               Algeria                     2.61
3               Andorra                      NaN
4                Angola                     4.14
..                  ...                      ...
197             Vietnam                     2.90
198  West Bank and Gaza                     3.33
199               Yemen                     4.37
200              Zambia                     1.95
201            Zimbabwe                     1.90

[202 rows x 2 columns]
---------------------------------


Unnamed: 0,Country,Urban_population_growth
0,Afghanistan,5.440000
1,Albania,2.210000
2,Algeria,2.610000
3,Andorra,2.165851
4,Angola,4.140000
...,...,...
197,Vietnam,2.900000
198,West Bank and Gaza,3.330000
199,Yemen,4.370000
200,Zambia,1.950000


In [15]:
#Con la media de un valor en concreto
df.fillna(df.mean())

Unnamed: 0,Country,Urban_population_growth
0,Afghanistan,5.440000
1,Albania,2.210000
2,Algeria,2.610000
3,Andorra,2.165851
4,Angola,4.140000
...,...,...
197,Vietnam,2.900000
198,West Bank and Gaza,3.330000
199,Yemen,4.370000
200,Zambia,1.950000


**Break conceptual:**

Se pueden realizar operaciones matemáticas con los dataframes... (recordatorio)

In [16]:
df

Unnamed: 0,Country,Urban_population_growth
0,Afghanistan,5.44
1,Albania,2.21
2,Algeria,2.61
3,Andorra,
4,Angola,4.14
...,...,...
197,Vietnam,2.90
198,West Bank and Gaza,3.33
199,Yemen,4.37
200,Zambia,1.95


In [28]:
df2 = df + df
print(df.shape)
print(df2.shape)

# Vamos a ver como es df y como es df2

(202, 2)
(202, 2)


Unnamed: 0,Country,Urban_population_growth
0,AfghanistanAfghanistan,10.88
1,AlbaniaAlbania,4.42
2,AlgeriaAlgeria,5.22
3,AndorraAndorra,
4,AngolaAngola,8.28
...,...,...
197,VietnamVietnam,5.80
198,West Bank and GazaWest Bank and Gaza,6.66
199,YemenYemen,8.74
200,ZambiaZambia,3.90


## Eliminación de datos perdidos: Otra manera de operar con ellos


In [42]:
df.two["three"]=[3]*5
#[3]*5 == [3,3,3,3,3]
print(df.two)
print("-"*35)
print(df.two.dropna())

        one       two  three
a       NaN       NaN      3
b       NaN       NaN      3
c  1.470844  0.373619      3
d  1.082727  0.293328      3
e  0.074285  1.067871      3
-----------------------------------
        one       two  three
c  1.470844  0.373619      3
d  1.082727  0.293328      3
e  0.074285  1.067871      3


In [43]:
#Otra manera de borrar los datos es considerando las coumnas (axis=1) por defecto es axis=0
df.two.dropna(axis=1)

Unnamed: 0,three
a,3
b,3
c,3
d,3
e,3


**La interpolación sirve como metodo para tratar con valores desconocidos.**

In [44]:
print(df.two)
print("-"*35)
print(df.two.interpolate())

        one       two  three
a       NaN       NaN      3
b       NaN       NaN      3
c  1.470844  0.373619      3
d  1.082727  0.293328      3
e  0.074285  1.067871      3
-----------------------------------
        one       two  three
a       NaN       NaN      3
b       NaN       NaN      3
c  1.470844  0.373619      3
d  1.082727  0.293328      3
e  0.074285  1.067871      3


In [48]:
print("Valores interpolados:" + str(df.two.interpolate().count()-df.two.count()))

Valores interpolados:one      0
two      0
three    0
dtype: int64


### Hay múltiples maneras de interpolar:

En la documentación vemos una serie de ejemplos: <a target="_blank" href="https://pandas.pydata.org/pandas-docs/stable/generated/pandas.Series.interpolate.html"> Interpolate </a> (See)

# Ejercicios de gestión de valores perdidos

**1) Del fichero who.csv, contabiliza cuántos paises tienen algun valor NaN.**

**1b) Ordena el anterior resultado para identificar cuál es el pais con mayor número de campos desconocidos.**

**2) who.csv, Selecciona la primera, tercera y decima columna, de las filas comprendidas entre la 100 y la 150.**

**2b) ¿Cuántos valores NaN hay presentes?**

**2c) Crea un nuevo dataframe donde los NaN sean cero.**

**2d) Elimina aquellas filas de la anterior selección donde haya NaN.**

**3) Genera un dataframe de 5 x 100, con números aleatorios entre 0-10. Las celdas que superen un valor de >=8 se conviertan en valores NaN.**

**3a) Interpola los anteriores valores mediante interpolación simple.**

**3b) Interpola la serie 3, hasta un limite de 10 interpolaciones, con el metodo del más cercano "nearest".**