# Manipular filas y columnas de DataFrame en pandas


## Pesos de bebes al nacer, EEUU.

Inspirado por el libro "The art of Statistics, learning from data" by David Spiegelhalter (Pelican, 2020), usaremos datos del "National Center for Health Statistics, USA", que publica conjuntos de datos enormes sobre los pesos al nacer de los bebes en EEUU durante muchos años: https://www.cdc.gov/nchs/data_access/Vitalstatsonline.htm. El conjunto correspondiente a 2019 es un fichero de texto de 5GB que contiene muchas características (columns) potencialmente relevantes para identificar los factores que influyen en el peso al nacer de un bebe en EEUU..

Con el objetivo de facilitar la manipulación de estos datos, se ha preparado un conjunto de datos más simple, con solamente dos columnas:

- `OEGest_R3`, que es el "Obstetric Estimate Recode 3" con tres valores posibles: 1 (Menor de 37 semanas), 2 (37 semanas o más), 3 (Sin registrar) 
- `DBWT`, que es "Birth Weight – Detail in Grams". Un valor de 9999 indica que no se registró el peso al nacer
El fichero es nat2019.csv, que puede encontrar en la carpeta "data" del Aula Virtual. 



Empezad por importar `pandas`, la clase `Path` de `pathlib` y definir `DATA_DIRECTORY`


In [4]:
# Completar aquí
import pandas as pd
from pathlib import Path
DATA_DIRECTORY = Path("..") / ".." / "data"
# --------------------


Pyarrow will become a required dependency of pandas in the next major release of pandas (pandas 3.0),
(to allow more performant data types, such as the Arrow string type, and better interoperability with other libraries)
but was not found to be installed on your system.
If this would cause problems for you,
please provide us feedback at https://github.com/pandas-dev/pandas/issues/54466
        
  import pandas as pd


Después de cargar el fichero en un DataFrame llamado `pesos`, contestad a las siguientes preguntas:

1. Cuántas filas tiene el conjunto? 
2. Cuántos bebes nacieron antes de las 37 semanas?
3. Cuántos datos faltantes de peso presenta el conjunto?

Calculad el peso medio de los bebes al nacer en 2019

In [5]:
# Completar aquí
fuente = pd.read_csv(
    DATA_DIRECTORY / "nat2019.csv",
    sep=","
)
pesos = fuente.copy()
pesos = pesos.loc[pesos["OEGest_R3"] != 3, :]
pesos = pesos.loc[pesos["DBWT"] != 9999, :]


print(f" 1. Numero de filas: {pesos.loc[:, "OEGest_R3"].count()}")
print(f" 2. #Bebes que nacieron antes de las 3 semanas (OEGest_R3 = 1): {pesos.loc[pesos["OEGest_R3"] == 1, "OEGest_R3"].count()}")
print(f" 3. Datos faltantes respecto del peso: {pesos.loc[pesos["DBWT"] == 9999, "DBWT"].count()}")

# a = pesos.loc[pesos["OEGest_R3"] == 3, "OEGest_R3"].count()
# b = pesos.loc[pesos["DBWT"] == 9999, "OEGest_R3"].count()
# print(f"Numero de pesos registrados como '3' despues de la limpieza \"{a}\" (si fue 0 todo ok)")
# print(f"Numero de pesos registrados con pesos '9999' despues de la limpieza \"{b}\" (si fue 0 todo ok)")


print(f"El peso medio de los bebes al nace en 2019 en EEUU fue {round(pesos.loc[:, "DBWT"].mean(), 2)}g")
# --------------------


 1. Numero de filas: 3752276
 2. #Bebes que nacieron antes de las 3 semanas (OEGest_R3 = 1): 382322
 3. Datos faltantes respecto del peso: 0
El peso medio de los bebes al nace en 2019 en EEUU fue 3254.38g


Calculad el peso medio de los bebes, descartando los que nacieron antes de las 37 semanas.

In [6]:
# Completar aquí
pesos = fuente.copy()
pesos = pesos.loc[pesos["DBWT"] != 9999, :]
pesos_after_37_weeks = pesos.loc[pesos["OEGest_R3"] > 1, "DBWT"]
print(f"El peso medio de los bebes que nacieron con 37 semanas o más de gestación fue {round(pesos_after_37_weeks.mean(), 2)}g.")
# --------------------

El peso medio de los bebes que nacieron con 37 semanas o más de gestación fue 3361.09g.


Calculad el peso medio de los bebes prematuros (que nacieron antes de las 37 semanas)

In [7]:
# Completar aquí
pesos = fuente.copy()
pesos = pesos.loc[pesos["DBWT"] != 9999, :]
pesos_after_37_weeks = pesos.loc[pesos["OEGest_R3"] == 1, "DBWT"]
print(f"El peso medio de los bebes que nacieron con 37 semanas o menos de gestación fue {round(pesos_after_37_weeks.mean(), 1)}g.")
# --------------------

El peso medio de los bebes que nacieron con 37 semanas o menos de gestación fue 2312.5g.


## Datos de Calidad del Aire, Mompean, Cartagena
Vimos en una práctica anterior el conjunto de datos sobre calidad del aire registrados en la estación de la calle Mompean, a unos metros del Campus de la Muralla de la UPCT. Empezad por cargar los datos en un DataFrame llamado `mompean`, indicando que la columna `FechaHora` es un objeto de tipo DateTime y que la usaremos como `index`.

In [8]:
# Completar aquí
required_cols = ["FechaHora", "NO", "NO2", "SO2", "O3", "NOX", "PM10", "Ruido"]
mompean = pd.read_csv(
    DATA_DIRECTORY / "mompean.csv",
    sep=",",
    index_col=0, # Use the first column as index (Date)
    parse_dates=True, # Parse the dates
    usecols=required_cols, # Only use the columns required
)

# --------------------
mompean

Unnamed: 0_level_0,NO,NO2,SO2,O3,NOX,PM10,Ruido
FechaHora,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1
2010-01-01 00:00:00,4.0,7.0,17.0,,14.0,5.0,56.0
2010-01-01 01:00:00,6.0,12.0,18.0,,21.0,15.0,58.0
2010-01-01 02:00:00,6.0,17.0,17.0,,26.0,12.0,60.0
2010-01-01 03:00:00,5.0,10.0,18.0,,18.0,2.0,57.0
2010-01-01 04:00:00,4.0,8.0,19.0,,14.0,5.0,55.0
...,...,...,...,...,...,...,...
2019-12-31 19:00:00,9.0,35.0,8.0,47.0,49.0,19.0,
2019-12-31 20:00:00,29.0,59.0,9.0,24.0,102.0,41.0,
2019-12-31 21:00:00,59.0,65.0,8.0,10.0,155.0,48.0,
2019-12-31 22:00:00,51.0,51.0,9.0,11.0,130.0,45.0,


Quedaos con las columnas que tienen como mínimo 88000 valores no faltantes. Llamad el DataFrame resultante `mompean_88K`

In [9]:
# Completar aquí
mompean_88K = mompean.dropna(
    axis=1,  # drops columns
    thresh=88000,  # minimum number of non-NA values, cannot be combined with "how"
)
# --------------------
mompean_88K

Unnamed: 0_level_0,NO,NO2,SO2,NOX,PM10
FechaHora,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
2010-01-01 00:00:00,4.0,7.0,17.0,14.0,5.0
2010-01-01 01:00:00,6.0,12.0,18.0,21.0,15.0
2010-01-01 02:00:00,6.0,17.0,17.0,26.0,12.0
2010-01-01 03:00:00,5.0,10.0,18.0,18.0,2.0
2010-01-01 04:00:00,4.0,8.0,19.0,14.0,5.0
...,...,...,...,...,...
2019-12-31 19:00:00,9.0,35.0,8.0,49.0,19.0
2019-12-31 20:00:00,29.0,59.0,9.0,102.0,41.0
2019-12-31 21:00:00,59.0,65.0,8.0,155.0,48.0
2019-12-31 22:00:00,51.0,51.0,9.0,130.0,45.0


De este DataFrame, seleccionad, usando `loc`, las filas que no tienen ningún valor faltante

In [12]:
# Completar aquí
mompean_88K_complete_rows = mompean_88K.loc[
    mompean_88K.notna().all(axis=1) , : # only rows with no missing values
]

# --------------------
mompean_88K_complete_rows

Unnamed: 0_level_0,NO,NO2,SO2,NOX,PM10
FechaHora,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
2010-01-01 00:00:00,4.0,7.0,17.0,14.0,5.0
2010-01-01 01:00:00,6.0,12.0,18.0,21.0,15.0
2010-01-01 02:00:00,6.0,17.0,17.0,26.0,12.0
2010-01-01 03:00:00,5.0,10.0,18.0,18.0,2.0
2010-01-01 04:00:00,4.0,8.0,19.0,14.0,5.0
...,...,...,...,...,...
2019-12-31 19:00:00,9.0,35.0,8.0,49.0,19.0
2019-12-31 20:00:00,29.0,59.0,9.0,102.0,41.0
2019-12-31 21:00:00,59.0,65.0,8.0,155.0,48.0
2019-12-31 22:00:00,51.0,51.0,9.0,130.0,45.0


Obtener el mismo resultado usando el método `dropna`.

In [11]:
# Completar aquí
mompean_88K_complete_rows = mompean_88K.dropna(
    axis=0, # drops rows
    how="any",  # drops row with at least 1 NA values
)
# --------------------
mompean_88K_complete_rows

Unnamed: 0_level_0,NO,NO2,SO2,NOX,PM10
FechaHora,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
2010-01-01 00:00:00,4.0,7.0,17.0,14.0,5.0
2010-01-01 01:00:00,6.0,12.0,18.0,21.0,15.0
2010-01-01 02:00:00,6.0,17.0,17.0,26.0,12.0
2010-01-01 03:00:00,5.0,10.0,18.0,18.0,2.0
2010-01-01 04:00:00,4.0,8.0,19.0,14.0,5.0
...,...,...,...,...,...
2019-12-31 19:00:00,9.0,35.0,8.0,49.0,19.0
2019-12-31 20:00:00,29.0,59.0,9.0,102.0,41.0
2019-12-31 21:00:00,59.0,65.0,8.0,155.0,48.0
2019-12-31 22:00:00,51.0,51.0,9.0,130.0,45.0


Introducid el DataFrame datos con los siguientes valores

In [9]:
# Completar aquí

# --------------------
datos

Sustituid los valores faltantes de la columna `x` por la mediana de sus valores

In [10]:
# Completar aquí

# --------------------
datos

Escribid una función `sustituye_NaN` que coja un Series como argumento y sustituya sus valores faltantes por la mediana de sus valores

In [11]:
# Completar aquí

# --------------------
sustituye_NaN(datos['y'])

Usad el método  `apply` (ver [referencia](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.apply.html)), para sustituir en cada columna de datos los valores faltantes por la mediana de los valores de esa columna.

In [12]:
# Completar aquí

# --------------------
datos

Sustituid los valores del cuadrado superior izquierda de tamaño 2x2 por 10, 11, 12, 13:

In [13]:
# Completar aquí

# --------------------
datos