# Data cleaning

In [None]:
import pandas as pd

In [None]:
df = pd.read_csv('datasets/nba_players.csv', index_col=0)
df.head()

In [None]:
df.head()

In [None]:
df.rename(columns={'team_abbreviation': 'team', 'pts': 'points'})

## rename()

¡La documentación es tu amiga! [rename](https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.rename.html)

In [None]:
songs = pd.DataFrame({
    'data': [145, 142, 38, 13],
    'name': 'counts'
})

songs

❓ ¿Cómo renombrar los `index` con los siguientes `str`?

In [None]:
names = ['Paul', 'John', 'George', 'Ringo']

❓¿La *posición* de los index cambió?

## drop_duplicates()

¡La documentación es tu amiga! [drop_duplicates](https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.drop_duplicates.html)

In [None]:
df_duplicates = pd.concat([df.head(10), df.head()])
df_duplicates

In [None]:
df_duplicates.size

In [None]:
df_duplicates.drop_duplicates()

In [None]:
df_duplicates.drop_duplicates().size

❓¿Cómo eliminar valores duplicados teniendo en cuénta sólo una columna?

In [None]:
presidents = {
    'President':[
        'George Washington', 'John Adams', 
        'Thomas Jefferson', 'James Madison', 
        'James Monroe', 'George H . W . Bush', 
        'Bill Clinton ', 'George W. Bush', 
        'Barack Obama', 'Donald Trump'
    ],
    'Party': [
        'Independent', 'Federalist', 
        'Democratic-Republican', 'Democratic-Republican', 
        'Democratic-Republican', 'Republican', 'Democratic', 
        'Republican', 'Democratic', 'Republican'
    ],
    'Average_rank': [
        1, 13, 5, 7, 8, 21, 16, 33, 17, 42
    ]
}

df_presidents = pd.DataFrame(presidents)

In [None]:
df_presidents

In [None]:
presidents_df.drop_duplicates(subset='Party')

In [None]:
presidents_df.drop_duplicates(subset='Party', keep='last')

In [None]:
presidents_df.drop_duplicates(subset='Party', keep=False)

## is_null()

Detecta datos faltantes en el DatFrame y devuelve un objeto similar con booleanos, donde `True` indica que en ese lugar hay un dato faltante.

In [None]:
df.isnull().head()

## NaN

*Not a Number*. Cuando pandas no puede determinar un *valor numérico* para asignar a una entrada, le asigna `NaN`. Generalmente estos **NO AFECTAN** operaciones aritméticas.


In [None]:
! pip install numpy

In [None]:
import numpy as np

nan_series = pd.Series(
    [2 , np.nan ],
    index =['Ono' , 'Clapton']
)

nan_series 

> Nótese que dype es `float64` ya que este tipo de dato admite NaN, no así `int64`.

In [None]:
nan_series.count()

In [None]:
nan_series.size

## is_na()

Detecta NaN en el DatFrame y devuelve un objeto similar con booleanos, donde `True` indica que en ese lugar hay un NaN.

In [None]:
df.isna()

## dropna()

Elimina NaN.

¡OJO! 

Hay que asegurarse de que es correcto "dropear" la data que contiene NaN.

In [None]:
df.head()

In [None]:
df.dropna().head()

In [None]:
df.size, df.dropna().size

### any

Elimina aquellas filas en las que todos los valores son NaN

In [None]:
df.head(11)

In [None]:
df.dropna(how='any').head(11)

### thresh

Elimina las filas que contengan al menos una cantidad de valores que no sean NaN

In [None]:
df.head(3)

In [None]:
df.shape

In [None]:
df.dropna(thresh=20).head(3)

### subset

Definir en qué conjunto de columnas buscar valores NaN y eliminar las filas que lo contengan

In [None]:
df.head(5)

In [None]:
df.dropna(subset=['reb', 'net_rating'])

## fillna()

Reemplaza NaN con un valor o método dados.

In [None]:
df.head(15)

In [None]:
df.fillna(0).head(15)

In [None]:
df.head()

### ffill

Propagar valores no nulos a lo largo de la columna

In [None]:
df = pd.read_csv('datasets/nba_players.csv', index_col=0)

In [None]:
df.head()

In [None]:
df.fillna(method='ffill')

### values

Especificar valores específicos para cada columna

In [None]:
df = pd.read_csv('datasets/nba_players.csv', index_col=0)

In [None]:
df.head()

In [None]:
values = {
    'draft_year': 1995,
    'draft_round': 2
}

df.fillna(value=values, limit=1)

### mean

Reemplazar los NaN con el promedio de los valores no nulos

In [None]:
df = pd.read_csv('datasets/nba_players.csv', index_col=0)

In [None]:
df.head()

In [None]:
df.reb.mean()

In [None]:
rb_mean = round(df.reb.mean(), 2)
df.fillna(value={'reb': rb_mean})

### median

Reemplazar los NaN con la mediana de los valores no nulos

In [None]:
df = pd.read_csv('datasets/nba_players.csv', index_col=0)

In [None]:
df.head()

In [None]:
df.reb.median()

In [None]:
df.fillna(value={'reb': df.reb.median()})

### mode

Reemplazar los NaN con la moda de los valores no nulos

In [None]:
df = pd.read_csv('datasets/nba_players.csv', index_col=0)

In [None]:
df.head()

In [None]:
df.reb.mode()

In [None]:
df.fillna(value={'reb': df.reb.mode()})