# Manipular filas y columnas de DataFrame en pandas


## Pesos de bebes al nacer, EEUU.

Inspirado por el libro "The art of Statistics, learning from data" by David Spiegelhalter (Pelican, 2020), usaremos datos del "National Center for Health Statistics, USA", que publica conjuntos de datos enormes sobre los pesos al nacer de los bebes en EEUU durante muchos años: https://www.cdc.gov/nchs/data_access/Vitalstatsonline.htm. El conjunto correspondiente a 2019 es un fichero de texto de 5GB que contiene muchas características (columns) potencialmente relevantes para identificar los factores que influyen en el peso al nacer de un bebe en EEUU..

Con el objetivo de facilitar la manipulación de estos datos, se ha preparado un conjunto de datos más simple, con solamente dos columnas:

- `OEGest_R3`, que es el "Obstetric Estimate Recode 3" con tres valores posibles: 1 (Menor de 37 semanas), 2 (37 semanas o más), 3 (Sin registrar) 
- `DBWT`, que es "Birth Weight – Detail in Grams". Un valor de 9999 indica que no se registró el peso al nacer
El fichero es nat2019.csv, que puede encontrar en la carpeta "data" del Aula Virtual. 



Empezad por importar `pandas`, la clase `Path` de `pathlib` y definir `DATA_DIRECTORY`


In [1]:
# Completar aquí
import pandas as pd
from pathlib import Path
import numpy as np
DATA_DIRECTORY = Path("../data")
pesos = pd.read_csv(DATA_DIRECTORY / "nat2019.csv")

# --------------------


Después de cargar el fichero en un DataFrame llamado `pesos`, contestad a las siguientes preguntas:

1. Cuántas filas tiene el conjunto? 
2. Cuántos bebes nacieron antes de las 37 semanas?
3. Cuántos datos faltantes de peso presenta el conjunto?

In [2]:
# la cantidad de filas del conjunto se puede ver con .shape[0]
print(f"Filas del conjunto: {pesos.shape[0]}")

# Para los bebés que nacieron antes de las 37 semanas, filtraremos los pesos donde OEGEST sea 1 y DBWT distinto de 9999. Y la longitud para ver cuántos.
print(f"Bebés nacidos antes de 37 semanas:  {len(pesos[(pesos["OEGest_R3"]==1) & (pesos["DBWT"] != 9999) ])}")

# Para los datos faltantes de peso veremos cuando DBWT sea igual a 9999
print(f"Datos faltantes de pesos: {len(pesos[pesos["DBWT"]==9999])}")

Filas del conjunto: 3757582
Bebés nacidos antes de 37 semanas:  382322
Datos faltantes de pesos: 3767


Calculad el peso medio de los bebes al nacer en 2019

In [3]:
# Completar aquí

# Para el peso medio usaremos la función mean() únicamente con los pesos que sean DISTINTOS de 9999. Guardaremos pesos_reales para despues
pesos_reales = pesos[pesos['DBWT'] != 9999]
print(f"El peso medio de los bebes al nacer en 2019 en EEUU fue {pesos_reales['DBWT'].mean()}g")
 
# --------------------


El peso medio de los bebes al nacer en 2019 en EEUU fue 3254.2958467585645g


Calculad el peso medio de los bebes, descartando los que nacieron antes de las 37 semanas.

In [20]:
# Completar aquí
p1 = pesos_reales[pesos_reales['OEGest_R3'] != 1]["DBWT"]
print(f"El peso medio de los bebes que nacieron con 37 semanas o más de gestación fue {p1.mean()}g")
# --------------------


El peso medio de los bebes que nacieron con 37 semanas o más de gestación fue 3361.0893728683404g


Calculad el peso medio de los bebes prematuros (que nacieron antes de las 37 semanas)

In [21]:
# Completar aquí
p2 = pesos_reales[pesos_reales['OEGest_R3'] == 1]["DBWT"]
print(f"El peso medio de los bebes prematuros fue {p2.mean()}g")
# --------------------


El peso medio de los bebes prematuros fue 2312.5409236193577g


## Datos de Calidad del Aire, Mompean, Cartagena
Vimos en una práctica anterior el conjunto de datos sobre calidad del aire registrados en la estación de la calle Mompean, a unos metros del Campus de la Muralla de la UPCT. Empezad por cargar los datos en un DataFrame llamado `mompean`, indicando que la columna `FechaHora` es un objeto de tipo DateTime y que la usaremos como `index`.

In [6]:
# Completar aquí
mompean = pd.read_csv(DATA_DIRECTORY / "mompean.csv", parse_dates=["FechaHora"])
mompean = mompean.set_index("FechaHora")
# --------------------
mompean

Unnamed: 0_level_0,NO,NO2,SO2,O3,TMP,HR,NOX,DD,PRB,RS,VV,C6H6,C7H8,XIL,PM10,Ruido
FechaHora,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1,Unnamed: 15_level_1,Unnamed: 16_level_1
2010-01-01 00:00:00,4.0,7.0,17.0,,,,14.0,,,,,,,,5.0,56.0
2010-01-01 01:00:00,6.0,12.0,18.0,,,,21.0,,,,,,,,15.0,58.0
2010-01-01 02:00:00,6.0,17.0,17.0,,,,26.0,,,,,,,,12.0,60.0
2010-01-01 03:00:00,5.0,10.0,18.0,,,,18.0,,,,,,,,2.0,57.0
2010-01-01 04:00:00,4.0,8.0,19.0,,,,14.0,,,,,,,,5.0,55.0
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
2019-12-31 19:00:00,9.0,35.0,8.0,47.0,,,49.0,,,,,,,,19.0,
2019-12-31 20:00:00,29.0,59.0,9.0,24.0,,,102.0,,,,,,,,41.0,
2019-12-31 21:00:00,59.0,65.0,8.0,10.0,,,155.0,,,,,,,,48.0,
2019-12-31 22:00:00,51.0,51.0,9.0,11.0,,,130.0,,,,,,,,45.0,


Quedaos con las columnas que tienen como mínimo 88000 valores no faltantes. Llamad el DataFrame resultante `mompean_88K`

In [7]:
# Completar aquí
mompean_88K = mompean.dropna(axis=1, thresh=88000)

# --------------------
mompean_88K


Unnamed: 0_level_0,NO,NO2,SO2,NOX,PM10
FechaHora,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
2010-01-01 00:00:00,4.0,7.0,17.0,14.0,5.0
2010-01-01 01:00:00,6.0,12.0,18.0,21.0,15.0
2010-01-01 02:00:00,6.0,17.0,17.0,26.0,12.0
2010-01-01 03:00:00,5.0,10.0,18.0,18.0,2.0
2010-01-01 04:00:00,4.0,8.0,19.0,14.0,5.0
...,...,...,...,...,...
2019-12-31 19:00:00,9.0,35.0,8.0,49.0,19.0
2019-12-31 20:00:00,29.0,59.0,9.0,102.0,41.0
2019-12-31 21:00:00,59.0,65.0,8.0,155.0,48.0
2019-12-31 22:00:00,51.0,51.0,9.0,130.0,45.0


De este DataFrame, seleccionad, usando `loc`, las filas que no tienen ningún valor faltante

In [8]:
# Completar aquí
dropped1 = mompean_88K.loc[mompean_88K.notnull().all(axis=1)]
dropped1
# --------------------


Unnamed: 0_level_0,NO,NO2,SO2,NOX,PM10
FechaHora,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
2010-01-01 00:00:00,4.0,7.0,17.0,14.0,5.0
2010-01-01 01:00:00,6.0,12.0,18.0,21.0,15.0
2010-01-01 02:00:00,6.0,17.0,17.0,26.0,12.0
2010-01-01 03:00:00,5.0,10.0,18.0,18.0,2.0
2010-01-01 04:00:00,4.0,8.0,19.0,14.0,5.0
...,...,...,...,...,...
2019-12-31 19:00:00,9.0,35.0,8.0,49.0,19.0
2019-12-31 20:00:00,29.0,59.0,9.0,102.0,41.0
2019-12-31 21:00:00,59.0,65.0,8.0,155.0,48.0
2019-12-31 22:00:00,51.0,51.0,9.0,130.0,45.0


Obtener el mismo resultado usando el método `dropna`.

In [9]:
# Completar aquí
# axis=0 son filas y how=any me dira si hay al menos UN NaN
dropped2 = mompean_88K.dropna(axis=0, how="any")
dropped2
# --------------------


Unnamed: 0_level_0,NO,NO2,SO2,NOX,PM10
FechaHora,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
2010-01-01 00:00:00,4.0,7.0,17.0,14.0,5.0
2010-01-01 01:00:00,6.0,12.0,18.0,21.0,15.0
2010-01-01 02:00:00,6.0,17.0,17.0,26.0,12.0
2010-01-01 03:00:00,5.0,10.0,18.0,18.0,2.0
2010-01-01 04:00:00,4.0,8.0,19.0,14.0,5.0
...,...,...,...,...,...
2019-12-31 19:00:00,9.0,35.0,8.0,49.0,19.0
2019-12-31 20:00:00,29.0,59.0,9.0,102.0,41.0
2019-12-31 21:00:00,59.0,65.0,8.0,155.0,48.0
2019-12-31 22:00:00,51.0,51.0,9.0,130.0,45.0


Introducid el DataFrame datos con los siguientes valores

In [10]:
# Completar aquí

datos = {
    'x': [1.0, np.nan, 7.0, 2.0, np.nan],
    'y': [np.nan, 0.0, -1.0, -5.0, np.nan],
    'z': [4.0, 6.0, 9.0, np.nan, np.nan]
}

datos = pd.DataFrame(datos, index=['f1', 'f2', 'f3', 'f4', 'f5'])
# --------------------
datos

Unnamed: 0,x,y,z
f1,1.0,,4.0
f2,,0.0,6.0
f3,7.0,-1.0,9.0
f4,2.0,-5.0,
f5,,,


Sustituid los valores faltantes de la columna `x` por la mediana de sus valores

In [11]:
# Completar aquí
datos.loc[["f2","f5"], "x"] = datos.loc[:,"x"].median()

# --------------------
datos

Unnamed: 0,x,y,z
f1,1.0,,4.0
f2,2.0,0.0,6.0
f3,7.0,-1.0,9.0
f4,2.0,-5.0,
f5,2.0,,


Escribid una función `sustituye_NaN` que coja un Series como argumento y sustituya sus valores faltantes por la mediana de sus valores

In [22]:
# Completar aquí
# Como no se que valores son faltantes, usaré fillna() para rellenar los NaN
def sustituye_NaN(s: pd.Series) -> pd.Series:
    mediana = s.median()
    return s.fillna(mediana)

# --------------------
sustituye_NaN(datos['y'])

f1    11.0
f2    13.0
f3    -1.0
f4    -5.0
f5    -1.0
Name: y, dtype: float64

Usad el método  `apply` (ver [referencia](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.apply.html)), para sustituir en cada columna de datos los valores faltantes por la mediana de los valores de esa columna.

In [13]:
# Completar aquí
datos = datos.apply(sustituye_NaN)
# --------------------
datos

Unnamed: 0,x,y,z
f1,1.0,-1.0,4.0
f2,2.0,0.0,6.0
f3,7.0,-1.0,9.0
f4,2.0,-5.0,6.0
f5,2.0,-1.0,6.0


Sustituid los valores del cuadrado superior izquierda de tamaño 2x2 por 10, 11, 12, 13:

In [14]:
# Completar aquí
datos.iloc[0:2,0:2] = [[10,11],[12,13]]
# --------------------
datos

Unnamed: 0,x,y,z
f1,10.0,11.0,4.0
f2,12.0,13.0,6.0
f3,7.0,-1.0,9.0
f4,2.0,-5.0,6.0
f5,2.0,-1.0,6.0
