
# Manipular filas y columnas de DataFrame en pandas
## Pesos de bebes al nacer, EEUU.

Inspirado por el libro "The art of Statistics, learning from data" by David Spiegelhalter (Pelican, 2020), usaremos datos del "National Center for Health Statistics, USA", que publica conjuntos de datos enormes sobre los pesos al nacer de los bebes en EEUU durante muchos años: <https://www.cdc.gov/nchs/data_access/Vitalstatsonline.htm>. El conjunto correspondiente a 2019 es un fichero de texto de 5GB que contiene muchas características (columns) potencialmente relevantes para identificar los factores que influyen en el peso al nacer de un bebe en EEUU..

Con el objetivo de facilitar la manipulación de estos datos, se ha preparado un conjunto de datos más simple, con solamente dos columnas:

- `OEGest_R3`, que es el "Obstetric Estimate Recode 3" con tres valores posibles: 1 (Menor de 37 semanas), 2 (37 semanas o más), 3 (Sin registrar)
- `DBWT`, que es "Birth Weight – Detail in Grams". Un valor de 9999 indica que no se registró el peso al nacer El fichero es nat2019.csv, que puede encontrar en la carpeta "data" del Aula Virtual.

Empezad por importar `pandas`, la clase `Path` de `pathlib` y definir `DATA_DIRECTORY`


In [1]:


# Completar aquí

# --------------------
import pandas as pd
from pathlib import Path

DATA_DIRECTORY = Path("..","data")




Después de cargar el fichero en un DataFrame llamado `pesos`, contestad a las siguientes preguntas:

    1. Cuántas filas tiene el conjunto?
    2. Cuántos bebes nacieron antes de las 37 semanas?
    3. Cuántos datos faltantes de peso presenta el conjunto?

Calculad el peso medio de los bebes al nacer en 2019


In [7]:
# Completar aquí

# --------------------
pesos = pd.read_csv(DATA_DIRECTORY / "nat2019.csv");
pesos

num_filas = pesos.shape[0]
print(f"El conjunto tiene {num_filas} filas.")


bebes_pre_37 = pesos[pesos['OEGest_R3'] == 1].shape[0]
print(bebes_pre_37)


faltantes_peso = (pesos['DBWT'] == 9999).sum()
print(faltantes_peso)

pesos_validos = pesos[pesos['DBWT'] != 9999]
peso_medio = pesos_validos['DBWT'].mean()
print(f"{peso_medio} gramos")


El conjunto tiene 3757582 filas.
383818
3767
3254.2958467585645 gramos


El peso medio de los bebes al nacer en 2019 en EEUU fue 3254.3g.

Calculad el peso medio de los bebes, descartando los que nacieron antes de las 37 semanas.

In [10]:
# Completar aquí

# --------------------
bebes_validos = pesos[pesos['OEGest_R3'] != 1]

bebes_validos_con_datos = bebes_validos[bebes_validos['DBWT'] != 9999]

peso_medio_descartados = bebes_validos_con_datos['DBWT'].mean()
print(peso_medio_descartados)

3361.0893728683404


El peso medio de los bebes que nacieron con 37 semanas o más de gestación fue 3361.2g.

Calculad el peso medio de los bebes prematuros (que nacieron antes de las 37 semanas)


In [11]:
# Completar aquí

# --------------------

bebes_prematuros = pesos[pesos['OEGest_R3'] == 1]
bebes_validos_prematuros = bebes_prematuros[bebes_prematuros['DBWT'] != 9999]
peso_medio_prematuro = bebes_validos_prematuros['DBWT'].mean()

print(peso_medio_prematuro)

2312.5409236193577




El peso medio de los bebes prematuros fue 2312.5g.




## Datos de Calidad del Aire, Mompean, Cartagena

Vimos en una práctica anterior el conjunto de datos sobre calidad del aire registrados en la estación de la calle Mompean, a unos metros del Campus de la Muralla de la UPCT. Empezad por cargar los datos en un DataFrame llamado `mompean`, indicando que la columna `FechaHora` es un objeto de tipo DateTime y que la usaremos como `index`.


In [14]:
mompean = pd.read_csv(DATA_DIRECTORY / "mompean.csv", parse_dates=['FechaHora'], index_col='FechaHora')
mompean


Unnamed: 0_level_0,NO,NO2,SO2,O3,TMP,HR,NOX,DD,PRB,RS,VV,C6H6,C7H8,XIL,PM10,Ruido
FechaHora,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1,Unnamed: 15_level_1,Unnamed: 16_level_1
2010-01-01 00:00:00,4.0,7.0,17.0,,,,14.0,,,,,,,,5.0,56.0
2010-01-01 01:00:00,6.0,12.0,18.0,,,,21.0,,,,,,,,15.0,58.0
2010-01-01 02:00:00,6.0,17.0,17.0,,,,26.0,,,,,,,,12.0,60.0
2010-01-01 03:00:00,5.0,10.0,18.0,,,,18.0,,,,,,,,2.0,57.0
2010-01-01 04:00:00,4.0,8.0,19.0,,,,14.0,,,,,,,,5.0,55.0
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
2019-12-31 19:00:00,9.0,35.0,8.0,47.0,,,49.0,,,,,,,,19.0,
2019-12-31 20:00:00,29.0,59.0,9.0,24.0,,,102.0,,,,,,,,41.0,
2019-12-31 21:00:00,59.0,65.0,8.0,10.0,,,155.0,,,,,,,,48.0,
2019-12-31 22:00:00,51.0,51.0,9.0,11.0,,,130.0,,,,,,,,45.0,


Quedaos con las columnas que tienen como mínimo 88000 valores no faltantes. Llamad el DataFrame resultante mompean_88K

In [15]:
contador = mompean.count()
columnas_88K = contador[contador >= 88000].index

mompean_88K = mompean[columnas_88K]
mompean_88K

Unnamed: 0_level_0,NO,NO2,SO2,NOX,PM10
FechaHora,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
2010-01-01 00:00:00,4.0,7.0,17.0,14.0,5.0
2010-01-01 01:00:00,6.0,12.0,18.0,21.0,15.0
2010-01-01 02:00:00,6.0,17.0,17.0,26.0,12.0
2010-01-01 03:00:00,5.0,10.0,18.0,18.0,2.0
2010-01-01 04:00:00,4.0,8.0,19.0,14.0,5.0
...,...,...,...,...,...
2019-12-31 19:00:00,9.0,35.0,8.0,49.0,19.0
2019-12-31 20:00:00,29.0,59.0,9.0,102.0,41.0
2019-12-31 21:00:00,59.0,65.0,8.0,155.0,48.0
2019-12-31 22:00:00,51.0,51.0,9.0,130.0,45.0


De este DataFrame, seleccionad, usando `loc`, las filas que no tienen ningún valor faltante

In [18]:


# Completar aquí

# --------------------

nonull1_mompean = mompean_88K.loc[mompean_88K.notna().all(axis=1)]
print(nonull1_mompean)



                       NO   NO2   SO2    NOX  PM10
FechaHora                                         
2010-01-01 00:00:00   4.0   7.0  17.0   14.0   5.0
2010-01-01 01:00:00   6.0  12.0  18.0   21.0  15.0
2010-01-01 02:00:00   6.0  17.0  17.0   26.0  12.0
2010-01-01 03:00:00   5.0  10.0  18.0   18.0   2.0
2010-01-01 04:00:00   4.0   8.0  19.0   14.0   5.0
...                   ...   ...   ...    ...   ...
2019-12-31 19:00:00   9.0  35.0   8.0   49.0  19.0
2019-12-31 20:00:00  29.0  59.0   9.0  102.0  41.0
2019-12-31 21:00:00  59.0  65.0   8.0  155.0  48.0
2019-12-31 22:00:00  51.0  51.0   9.0  130.0  45.0
2019-12-31 23:00:00  32.0  42.0   9.0   90.0  44.0

[83888 rows x 5 columns]


Obtener el mismo resultado usando el método `dropna`.


In [19]:
# Completar aquí

# --------------------
nonull2_mompean = mompean_88K.dropna()
print(nonull2_mompean)


                       NO   NO2   SO2    NOX  PM10
FechaHora                                         
2010-01-01 00:00:00   4.0   7.0  17.0   14.0   5.0
2010-01-01 01:00:00   6.0  12.0  18.0   21.0  15.0
2010-01-01 02:00:00   6.0  17.0  17.0   26.0  12.0
2010-01-01 03:00:00   5.0  10.0  18.0   18.0   2.0
2010-01-01 04:00:00   4.0   8.0  19.0   14.0   5.0
...                   ...   ...   ...    ...   ...
2019-12-31 19:00:00   9.0  35.0   8.0   49.0  19.0
2019-12-31 20:00:00  29.0  59.0   9.0  102.0  41.0
2019-12-31 21:00:00  59.0  65.0   8.0  155.0  48.0
2019-12-31 22:00:00  51.0  51.0   9.0  130.0  45.0
2019-12-31 23:00:00  32.0  42.0   9.0   90.0  44.0

[83888 rows x 5 columns]


Introducid el DataFrame datos con los siguientes valores

In [31]:
# Completar aquí

# --------------------
import numpy as np

datos = pd.DataFrame({
    'x': [1.0, np.nan, 7.0, 2.0, np.nan],
    'y': [np.nan, 0.0, -1.0, -5.0, np.nan],
    'z': [4.0, 6.0, 9.0, np.nan, np.nan]
}, index=['f1', 'f2', 'f3', 'f4', 'f5'])
datos

Unnamed: 0,x,y,z
f1,1.0,,4.0
f2,,0.0,6.0
f3,7.0,-1.0,9.0
f4,2.0,-5.0,
f5,,,




Sustituid los valores faltantes de la columna `x` por la mediana de sus valores


In [33]:
# Completar aquí

# --------------------
datos['x'] = datos['x'].fillna(datos['x'].median())
datos

Unnamed: 0,x,y,z
f1,1.0,,4.0
f2,2.0,0.0,6.0
f3,7.0,-1.0,9.0
f4,2.0,-5.0,
f5,2.0,,


Escribid una función `sustituye_NaN` que coja un Series como argumento y sustituya sus valores faltantes por la mediana de sus valores

In [35]:
# Completar aquí

# --------------------
def sustituye_NaN(serie):
    return serie.fillna(serie.median())
sustituye_NaN(datos['y'])

f1   -1.0
f2    0.0
f3   -1.0
f4   -5.0
f5   -1.0
Name: y, dtype: float64

Usad el método `apply` (ver [referencia](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.apply.html)), para sustituir en cada columna de datos los valores faltantes por la mediana de los valores de esa columna.

In [39]:
# Completar aquí

# --------------------
datos = datos.apply(sustituye_NaN)
datos



Unnamed: 0,x,y,z
f1,1.0,-1.0,4.0
f2,2.0,0.0,6.0
f3,7.0,-1.0,9.0
f4,2.0,-5.0,6.0
f5,2.0,-1.0,6.0


Sustituid los valores del cuadrado superior izquierda de tamaño 2x2 por 10, 11, 12, 13:

In [40]:
# Completar aquí

# --------------------
datos.iloc[:2,:2] = [[10,11],[12,13]]
datos



ValueError: setting an array element with a sequence.