# Manipular filas y columnas de DataFrame en pandas


## Pesos de bebes al nacer, EEUU.

Inspirado por el libro "The art of Statistics, learning from data" by David Spiegelhalter (Pelican, 2020), usaremos datos del "National Center for Health Statistics, USA", que publica conjuntos de datos enormes sobre los pesos al nacer de los bebes en EEUU durante muchos años: https://www.cdc.gov/nchs/data_access/Vitalstatsonline.htm. El conjunto correspondiente a 2019 es un fichero de texto de 5GB que contiene muchas características (columns) potencialmente relevantes para identificar los factores que influyen en el peso al nacer de un bebe en EEUU..

Con el objetivo de facilitar la manipulación de estos datos, se ha preparado un conjunto de datos más simple, con solamente dos columnas:

- `OEGest_R3`, que es el "Obstetric Estimate Recode 3" con tres valores posibles: 1 (Menor de 37 semanas), 2 (37 semanas o más), 3 (Sin registrar) 
- `DBWT`, que es "Birth Weight – Detail in Grams". Un valor de 9999 indica que no se registró el peso al nacer
El fichero es nat2019.csv, que puede encontrar en la carpeta "data" del Aula Virtual. 



Empezad por importar `pandas`, el submódulo `path` de `os` y definir `DATA_DIRECTORY`


In [2]:
# Completar aquí

import pandas as pd
from os import path
DATA_DIRECTORY = path.join('..', 'data')

pesos = pd.read_csv(
    path.join(DATA_DIRECTORY,  'nat2019.csv'),
)

print(pesos[pesos['OEGest_R3'].isin([1])].count())
print(pesos[pesos['DBWT'].isin([9999])].count())

# --------------------


OEGest_R3    383818
DBWT         383818
dtype: int64
OEGest_R3    3767
DBWT         3767
dtype: int64


Después de cargar el fichero en un DataFrame llamado `pesos`, contestad a las siguientes preguntas:

1. Cuántas filas tiene el conjunto? Tiene 3757582 filas
2. Cuántos bebes nacieron antes de las 37 semanas? 383818 bebes antes de las 37 semanas
3. Cuántos datos faltantes de peso presenta el conjunto? 3767

Calculad el peso medio de los bebes al nacer en 2019

In [3]:
# Completar aquí
pesos_bebes = pesos[~pesos.DBWT.isin([9999])]
peso = round(pesos_bebes['DBWT'].mean(), 1)
print(f'El peso medio de los bebes en 2019 fué de {peso} gramos.')

# --------------------


El peso medio de los bebes en 2019 fué de 3254.3 gramos.


Calculad el peso medio de los bebes, descartando los que nacieron antes de las 37 semanas.

In [4]:
# Completar aquí
pesos_bebes = pesos[~pesos.DBWT.isin([9999]) & pesos.OEGest_R3.isin([2])]
peso = round(pesos_bebes['DBWT'].mean(), 1)
print(f'El peso medio de los bebes que nacieron con 37 semanas o más de gestación fué de {peso} gramos.')
# --------------------


El peso medio de los bebes que nacieron con 37 semanas o más de gestación fué de 3361.2 gramos.


Calculad el peso medio de los bebes prematuros (que nacieron antes de las 37 semanas)

In [5]:
# Completar aquí
pesos_bebes = pesos[~pesos.DBWT.isin([9999]) & pesos.OEGest_R3.isin([1])]
peso = round(pesos_bebes['DBWT'].mean(), 1)
print(f'El peso medio de los bebés prematuros fué de {peso} gramos.')
# --------------------


El peso medio de los bebés prematuros fué de 2312.5 gramos.


## Datos de Calidad del Aire, Mompean, Cartagena
Vimos en una práctica anterior el conjunto de datos sobre calidad del aire registrados en la estación de la calle Mompean, a unos metros del Campus de la Muralla de la UPCT. Empezad por cargar los datos en un DataFrame llamado `mompean`, indicando que la columna `FechaHora` es un objeto de tipo DateTime y que la usaremos como `index`.

In [10]:
# Completar aquí
mompean = pd.read_csv(
    path.join(DATA_DIRECTORY,  'mompean.csv'),
    parse_dates= ['FechaHora'],
    index_col = 'FechaHora'
)

# --------------------
mompean

Unnamed: 0_level_0,Fecha,NO,NO2,SO2,O3,TMP,HR,NOX,DD,PRB,RS,VV,C6H6,C7H8,XIL,PM10,Ruido,hora
FechaHora,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1,Unnamed: 15_level_1,Unnamed: 16_level_1,Unnamed: 17_level_1,Unnamed: 18_level_1
2010-01-01 00:00:00,1 ene 2010,4.0,7.0,17.0,,,,14.0,,,,,,,,5.0,56.0,0
2010-01-01 01:00:00,1 ene 2010,6.0,12.0,18.0,,,,21.0,,,,,,,,15.0,58.0,1
2010-01-01 02:00:00,1 ene 2010,6.0,17.0,17.0,,,,26.0,,,,,,,,12.0,60.0,2
2010-01-01 03:00:00,1 ene 2010,5.0,10.0,18.0,,,,18.0,,,,,,,,2.0,57.0,3
2010-01-01 04:00:00,1 ene 2010,4.0,8.0,19.0,,,,14.0,,,,,,,,5.0,55.0,4
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
2019-12-31 19:00:00,31 dic. 2019,9.0,35.0,8.0,47.0,,,49.0,,,,,,,,19.0,,19
2019-12-31 20:00:00,31 dic. 2019,29.0,59.0,9.0,24.0,,,102.0,,,,,,,,41.0,,20
2019-12-31 21:00:00,31 dic. 2019,59.0,65.0,8.0,10.0,,,155.0,,,,,,,,48.0,,21
2019-12-31 22:00:00,31 dic. 2019,51.0,51.0,9.0,11.0,,,130.0,,,,,,,,45.0,,22


Quedaos con las columnas que tienen como mínimo 88000 valores no faltantes. Llamad el DataFrame resultante `mompean_88K`

In [8]:
# Completar aquí
mompean_88K = mompean.dropna(thresh=88000, axis=1)
# --------------------
mompean_88K


Unnamed: 0_level_0,Fecha,NO,NO2,SO2,NOX,PM10,hora
FechaHora,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1
2010-01-01 00:00:00,1 ene 2010,4.0,7.0,17.0,14.0,5.0,0
2010-01-01 01:00:00,1 ene 2010,6.0,12.0,18.0,21.0,15.0,1
2010-01-01 02:00:00,1 ene 2010,6.0,17.0,17.0,26.0,12.0,2
2010-01-01 03:00:00,1 ene 2010,5.0,10.0,18.0,18.0,2.0,3
2010-01-01 04:00:00,1 ene 2010,4.0,8.0,19.0,14.0,5.0,4
...,...,...,...,...,...,...,...
2019-12-31 19:00:00,31 dic. 2019,9.0,35.0,8.0,49.0,19.0,19
2019-12-31 20:00:00,31 dic. 2019,29.0,59.0,9.0,102.0,41.0,20
2019-12-31 21:00:00,31 dic. 2019,59.0,65.0,8.0,155.0,48.0,21
2019-12-31 22:00:00,31 dic. 2019,51.0,51.0,9.0,130.0,45.0,22


De este DataFrame, seleccionad, usando `loc`, las filas que no tienen ningún valor faltantes

In [9]:
# Completar aquí

mompean_88K[~mompean_88K.loc[:].isna().any(axis=1)]

# --------------------


Unnamed: 0_level_0,Fecha,NO,NO2,SO2,NOX,PM10,hora
FechaHora,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1
2010-01-01 00:00:00,1 ene 2010,4.0,7.0,17.0,14.0,5.0,0
2010-01-01 01:00:00,1 ene 2010,6.0,12.0,18.0,21.0,15.0,1
2010-01-01 02:00:00,1 ene 2010,6.0,17.0,17.0,26.0,12.0,2
2010-01-01 03:00:00,1 ene 2010,5.0,10.0,18.0,18.0,2.0,3
2010-01-01 04:00:00,1 ene 2010,4.0,8.0,19.0,14.0,5.0,4
...,...,...,...,...,...,...,...
2019-12-31 19:00:00,31 dic. 2019,9.0,35.0,8.0,49.0,19.0,19
2019-12-31 20:00:00,31 dic. 2019,29.0,59.0,9.0,102.0,41.0,20
2019-12-31 21:00:00,31 dic. 2019,59.0,65.0,8.0,155.0,48.0,21
2019-12-31 22:00:00,31 dic. 2019,51.0,51.0,9.0,130.0,45.0,22


Obtener el mismo resultado usando el método `dropna`.

In [42]:
# Completar aquí

mompean_88K.dropna()

# --------------------


Unnamed: 0_level_0,Fecha,NO,NO2,SO2,NOX,PM10,hora
dateTime,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1
2010-01-01 00:00:00,1 ene 2010,4.0,7.0,17.0,14.0,5.0,0
2010-01-01 01:00:00,1 ene 2010,6.0,12.0,18.0,21.0,15.0,1
2010-01-01 02:00:00,1 ene 2010,6.0,17.0,17.0,26.0,12.0,2
2010-01-01 03:00:00,1 ene 2010,5.0,10.0,18.0,18.0,2.0,3
2010-01-01 04:00:00,1 ene 2010,4.0,8.0,19.0,14.0,5.0,4
...,...,...,...,...,...,...,...
2019-12-31 19:00:00,31 dic. 2019,9.0,35.0,8.0,49.0,19.0,19
2019-12-31 20:00:00,31 dic. 2019,29.0,59.0,9.0,102.0,41.0,20
2019-12-31 21:00:00,31 dic. 2019,59.0,65.0,8.0,155.0,48.0,21
2019-12-31 22:00:00,31 dic. 2019,51.0,51.0,9.0,130.0,45.0,22


Introducid el DataFrame datos con los siguientes valores

In [16]:
# Completar aquí

datos = pd.DataFrame(
    [
        [1.0, None, 4.0],
        [None, 0.0, 6.0],
        [7.0, -1.0, 9.0],
        [2.0, -5.0, None],
        [None, None, None]
    ],
    index=['f1', 'f2', 'f3', 'f4', 'f5'],
    columns=['x', 'y', 'z']
)


# --------------------
datos

Unnamed: 0,x,y,z
f1,1.0,,4.0
f2,,0.0,6.0
f3,7.0,-1.0,9.0
f4,2.0,-5.0,
f5,,,


Sustituid los valores faltantes de la columna `x` por la mediana de sus valores

In [17]:
# Completar aquí

datos['x'].fillna(datos['x'].median(), inplace= True)

# --------------------
datos

Unnamed: 0,x,y,z
f1,1.0,,4.0
f2,2.0,0.0,6.0
f3,7.0,-1.0,9.0
f4,2.0,-5.0,
f5,2.0,,


Escribid una función `sustituye_NaN` que coja un Series como argumento y sustituya sus valores faltantes por la mediana de sus valores

In [18]:
# Completar aquí

def sustituye_NaN(arg):
    arg.fillna(arg.median(), inplace= True)

# --------------------
sustituye_NaN(datos['y'])
datos

Unnamed: 0,x,y,z
f1,1.0,-1.0,4.0
f2,2.0,0.0,6.0
f3,7.0,-1.0,9.0
f4,2.0,-5.0,
f5,2.0,-1.0,


Usad el método  `apply` (ver [referencia](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.apply.html)), para sustituir en cada columna de datos los valores faltantes por la mediana de los valores de esa columna.

In [19]:
# Completar aquí

datos.apply(sustituye_NaN)

# --------------------
datos

Unnamed: 0,x,y,z
f1,1.0,-1.0,4.0
f2,2.0,0.0,6.0
f3,7.0,-1.0,9.0
f4,2.0,-5.0,6.0
f5,2.0,-1.0,6.0


Sustituid los valores del cuadrado superior izquierda de tamaño 2x2 por 10, 11, 12, 13:

In [46]:
# Completar aquí

datos.iloc[0:2, 0:2] = [[10,11],[12,13]]

# --------------------
datos

Unnamed: 0,x,y,z
f1,10.0,11.0,4.0
f2,12.0,13.0,6.0
f3,7.0,-1.0,9.0
f4,2.0,-5.0,6.0
f5,2.0,-1.0,6.0
