---
# Data Cleaning

#### Notebook de Noe 👻👻

---

In [1]:
import pandas as pd
import numpy as np

---

## NumPy .isnan()

---

In [2]:
arr = np.array([1, 2, None, 3, 4, None, 5, None,6]) # si no especifico nada, genera un array de "objects"
arr

array([1, 2, None, 3, 4, None, 5, None, 6], dtype=object)

In [3]:
arr2 = np.array([1, 2, None, 3, 4, None, 5, None,6],dtype="float")
arr2

array([ 1.,  2., nan,  3.,  4., nan,  5., nan,  6.])

In [4]:
# En Numpy, los nan son como virus, contagian todo lo que tocan
arr2.sum()

nan

In [5]:
arr.sum()

TypeError: unsupported operand type(s) for +: 'int' and 'NoneType'

In [6]:
## Demostracion de la virulencia!

print("np.nan+3 = ",np.nan+3)
print("3/np.nan = ",3/np.nan) 
print("3/np.inf = ", 3/np.inf)
print("np.inf/np.inf = ",np.inf/np.inf)
print("np.inf+np.nan = ",np.inf+np.nan)

np.nan+3 =  nan
3/np.nan =  nan
3/np.inf =  0.0
np.inf/np.inf =  nan
np.inf+np.nan =  nan


In [8]:
## Detectando nan en numpy
print(arr2)
print(np.isnan(arr2))

[ 1.  2. nan  3.  4. nan  5. nan  6.]
[ True  True False  True  True False  True False  True]


---
## Pandas 

### Pandas   .isna()

---

In [13]:
# Cargamos un dataset de juguete con un par de datos faltantes
df = pd.read_csv("data1.csv")
df

Unnamed: 0,A,B,C
0,Pedro,15.0,Perro
1,Maria,17.0,Gato
2,Jose,,Gallina
3,Marta,23.0,


In [14]:
df.isna()

Unnamed: 0,A,B,C
0,False,False,False
1,False,False,False
2,False,True,False
3,False,False,True


In [15]:
# Si realizamos operaciones vectorizadas en pandas, los nan no se toman en cuenta
# Los NA no se comportan como virus
df["B"].sum()

55.0

In [16]:
## Tambien podemos ver todos los que no son na
~df.isna()

Unnamed: 0,A,B,C
0,True,True,True
1,True,True,True
2,True,False,True
3,True,True,False


In [17]:
## Otra manera de ver los que no son na
df.notna()

Unnamed: 0,A,B,C
0,True,True,True
1,True,True,True
2,True,False,True
3,True,True,False


---
## Filtros en Numpy

---

In [19]:
# Dado que son como virus, hay que filtrarlos primero
# alt + 126 = ~

print(arr2)
print("------------------------------------------------------------")

filtro = ~np.isnan(arr2) # Nos quedamos con todos los que no son nan
print(filtro)

[ 1.  2. nan  3.  4. nan  5. nan  6.]
------------------------------------------------------------
[ True  True False  True  True False  True False  True]


In [20]:
## Aplicamos el filtro para quedarnos solo con los elementos que deseamos

arr2[filtro]

array([1., 2., 3., 4., 5., 6.])

In [22]:
## Los filtros sirven para filtrar otras cosas tambien

arr3 = arr2[filtro]

filtro2 = arr3>4

print(arr3)
print(filtro2)
print(arr3[filtro2])

[1. 2. 3. 4. 5. 6.]
[False False False False  True  True]
[5. 6.]


In [23]:
# No es necesario que generen una variable aparte

arr = np.random.randint(0,20,10)
print(arr)
print("---------------------------------------------------")

print(arr[arr<8])

[14 19  7  7  4  0 15  3 11 13]
---------------------------------------------------
[7 7 4 0 3]


---

## Detecccion de valores faltantes en pandas

---

In [28]:
# Vamos a usar el dataset del titanic

df = pd.read_csv("titanic.csv")
df.head(2)

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.25,,S
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C


In [29]:
# En pandas podemos ver rapidamente si faltan datos
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 891 entries, 0 to 890
Data columns (total 12 columns):
 #   Column       Non-Null Count  Dtype  
---  ------       --------------  -----  
 0   PassengerId  891 non-null    int64  
 1   Survived     891 non-null    int64  
 2   Pclass       891 non-null    int64  
 3   Name         891 non-null    object 
 4   Sex          891 non-null    object 
 5   Age          714 non-null    float64
 6   SibSp        891 non-null    int64  
 7   Parch        891 non-null    int64  
 8   Ticket       891 non-null    object 
 9   Fare         891 non-null    float64
 10  Cabin        204 non-null    object 
 11  Embarked     889 non-null    object 
dtypes: float64(2), int64(5), object(5)
memory usage: 83.7+ KB


In [31]:
# Podemos directamente saber cuantos datos faltan por cada columna
df.isna().sum()

PassengerId      0
Survived         0
Pclass           0
Name             0
Sex              0
Age            177
SibSp            0
Parch            0
Ticket           0
Fare             0
Cabin          687
Embarked         2
dtype: int64

In [32]:
## Vamos a dropear las filas donde embarked sea Nan

df = df.dropna(subset=["Embarked"])

df.isna().sum()


PassengerId      0
Survived         0
Pclass           0
Name             0
Sex              0
Age            177
SibSp            0
Parch            0
Ticket           0
Fare             0
Cabin          687
Embarked         0
dtype: int64

In [33]:
# Vamos a eliminar la columna Cabin
df = df.drop('Cabin', axis=1)
# df.drop("Cabin", axis="columns")

In [34]:
df.isna().sum()

PassengerId      0
Survived         0
Pclass           0
Name             0
Sex              0
Age            177
SibSp            0
Parch            0
Ticket           0
Fare             0
Embarked         0
dtype: int64

In [35]:
## Vamos a reemplazar la edad de los pasajeros faltantes por la media

df["Age"] = df["Age"].fillna(df["Age"].mean())


In [36]:
df.isna().sum()

PassengerId    0
Survived       0
Pclass         0
Name           0
Sex            0
Age            0
SibSp          0
Parch          0
Ticket         0
Fare           0
Embarked       0
dtype: int64

In [37]:
df.head()

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Embarked
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.25,S
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.925,S
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1,S
4,5,0,3,"Allen, Mr. William Henry",male,35.0,0,0,373450,8.05,S


In [39]:
df.shape

(889, 11)

In [41]:
list(df.columns)

['PassengerId',
 'Survived',
 'Pclass',
 'Name',
 'Sex',
 'Age',
 'SibSp',
 'Parch',
 'Ticket',
 'Fare',
 'Embarked']

---
## Limpiando datos corruptos o no validos

---

Supongamos que realizamos una encuesta.
Uno de los campos es género y los valores admitidos son los siguientes:

```python
Genero = { 
    'F': 'femenino',
    'M': 'masculino',    
    'X': 'otro'
}

```

El otro de los campos es la edad, y obviamente hay valores que no son admisibles o lógicos.

Supongan los siguientes ejemplos:
```python
edad = 15  # valido
edad2 = 350  # claramente invalido
edad3 = -15  # claramente invalido
```

---

In [42]:
df2 = pd.DataFrame({
    'Genero': ['M', 'F', 'F', 'D', '?'],
    'Edad': [29, 30, 24, 290, 25],
})
df2

Unnamed: 0,Genero,Edad
0,M,29
1,F,30
2,F,24
3,D,290
4,?,25


In [43]:
## Corroboramos si hay missing values

df2.isna().sum()  #  no los hay

Genero    0
Edad      0
dtype: int64

---

Hemos corroborado que no hay _missing values_, pero evidentemente hay datos que no son coherentes
con las reglas establecidas.

* Que simboliza un género de `D` o `?`.
* Una edad de 290 años claramente no es posible (al menos no para los humanos)

---

### Datos categóricos -- Buscando valores únicos

Los valores admitidos para `Genero` son `M`, `F` y `X`. 

Pero por simple inspección se ve que hay algunos mas...

---


In [44]:
df2["Genero"].unique()

array(['M', 'F', 'D', '?'], dtype=object)

In [45]:
df2["Genero"].value_counts()

F    2
M    1
D    1
?    1
Name: Genero, dtype: int64

---
Podemos tomar la decisión de reemplazar todos los `?` por `X`. También es posible (a veces), consultar a la persona que realizó la encuesta y preguntar que significa `D`.

El encuestador puede responder cosas como _seguramente_ todas las `D` son `F` porque las teclas están una al lado de la otra.

---

In [46]:
#Reemplazamos D por F y ? por X
df2['Genero'].replace(['D', '?'], ['F','X'])  # no lo guardo efectivamente en el dataframe

0    M
1    F
2    F
3    F
4    X
Name: Genero, dtype: object

In [47]:
## Tambien es posible hacer un replace con un diccionario
## (ahora si lo vamos a guardar en el df)
df2["Genero"] = df2['Genero'].replace({'D': 'F', '?': 'X'})
df2


Unnamed: 0,Genero,Edad
0,M,29
1,F,30
2,F,24
3,F,290
4,X,25


---
Ahora queda finalmente lidiar con el error en el registro de la edad...
`290` años?? probablemente pueda ser que haya habido un error de tipeo, y se haya agregado un cero de mas

---

In [48]:
df2.Edad.replace(290,29) ## no lo guarda aun

0    29
1    30
2    24
3    29
4    25
Name: Edad, dtype: int64

In [49]:
## si hay mas de un registro con este mismo tipo de error, no es óptimo realizar el cambio uno por uno.

# Verificamos si hay edades mayores a 100 o 110 o el limite que ustedes dispongan
df2[df2.Edad>100]

Unnamed: 0,Genero,Edad
3,F,290


In [52]:
# Ahora simplemente dividimos la columna por 10 en estos casos
filtro = df2["Edad"]>100

df2.loc[filtro, "Edad"] = df2.loc[filtro, "Edad"]/10
df2

Unnamed: 0,Genero,Edad
0,M,29
1,F,30
2,F,24
3,F,29
4,X,25


In [53]:
# Vamos a hacerles cumplir años a los de 29    =) 
df2.loc[df2["Edad"]==29, "Edad"] = df2.loc[df2["Edad"]==29, "Edad"]+1
df2

Unnamed: 0,Genero,Edad
0,M,30
1,F,30
2,F,24
3,F,30
4,X,25
