# Datos Nulos y Duplicados
**Objetivo:**
* Familiarizarse con la identificación de valores nulos en un DataFrame.
* Reconocer y contar duplicados en un conjunto de datos.


# Datos Nulos




**Instrucciones:**

1. Descargar el siguiente conjunto de datos: [satis_clientes.csv](https://drive.google.com/file/d/169MG1sSG8IqTtLdJwIlnBOhMkF_CN_Tb/view?usp=drive_link).
2. Cargar los datos en un DataFrame en Python usando Pandas.
Utilizar el método `isnull()` para identificar las filas con datos faltantes y contar el número de valores nulos por columna.
3. Usar el método `duplicated()` para identificar las filas duplicadas y contar cuántas filas duplicadas hay en total.
4. Crear un informe que incluya:
  * La cantidad total de registros en el DataFrame.
  * La cantidad total de valores nulos por columna.
  * La cantidad de filas duplicadas.
  * Un subconjunto de los registros duplicados para que se vea el contenido.  



## Ver en documentación oficial

[Pandas Working with missing data](https://pandas.pydata.org/docs/user_guide/missing_data.html)
[NumPy Data Types](https://numpy.org/doc/2.3/user/basics.types.html)

**Sobre NULL**

* NULL es la representación en bases de datos SQL.
* Cuando importás datos a pandas (ej: con pd.read_sql o pd.read_csv), esos NULL se convierten en NaN o NaT dentro de pandas.
* En pandas casi siempre vas a ver NaN (nulos numéricos/objetos) o NaT (nulos de tiempo).
* No vas a ver NULL directamente, salvo en la base de datos antes de importar.

## Veamos algunos comandos antes de comenzar
De forma similar a numpy, pandas también tiene algunas funciones útiles para identificar y detectar valores nulos.

In [None]:
import numpy as np
import pandas as pd

La función pd.isnulll() detecta valores nulos (como NaN, None, etc.) y devuelve True si el valor es nulo, o False si no lo es.

In [None]:
na = np.nan
print(type(na))


In [None]:
pd.isnull(np.nan)

In [None]:
pd.isnull(None)

La función pd.isna() en pandas se utiliza para detectar valores nulos (missing values) en objetos, como NaN, None, etc.

In [None]:
pd.isna(np.nan)

In [None]:
pd.isna(None)

También podemos usarlo con Series

In [None]:
pd.isnull(pd.Series([1, np.nan, 7]))

O incluso con Dataframes

In [None]:
pd.isnull(pd.DataFrame({
    'Column A': [1, np.nan, 7],
    'Column B': [np.nan, 2, 3],
    'Column C': [np.nan, 2, np.nan]
}))

## Veamos un ejemplo

In [None]:
# Al ejecutar este bloque, Google nos solicitará los permisos
from google.colab import drive
drive.mount('/content/drive')

In [None]:
#Para facilitar las tareas, podemos cambiar la ruta de trabajo con el método chdir() de la librería os de python.
import os
os.chdir('/content/drive/MyDrive/datasets')
# os.chdir('/content/drive/My Drive/{mi ruta de carpetas}')
!ls # muestra el contenido de la carpeta

In [152]:
import pandas as pd

# Cargar datos
df = pd.read_csv('satis_clientes.csv')
df.head()

Unnamed: 0,id,Empresa,Fecha,Calificación,Comentarios
0,1,Mitchell Group,11/12/2024,1.0,Integer ac leo. Pellentesque ultrices mattis o...
1,2,Kuhn-Fay,25/01/2024,4.0,Vestibulum ac est lacinia nisi venenatis trist...
2,3,Moen-Blick,11/11/2024,3.0,Aliquam quis turpis eget elit sodales sceleris...
3,4,McDermott Inc,01/12/2024,1.0,
4,5,Keebler Inc,12/01/2024,4.0,Integer ac leo. Pellentesque ultrices mattis o...


In [155]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1128 entries, 0 to 1127
Data columns (total 5 columns):
 #   Column        Non-Null Count  Dtype  
---  ------        --------------  -----  
 0   id            1128 non-null   int32  
 1   Empresa       1128 non-null   object 
 2   Fecha         1128 non-null   object 
 3   Calificación  904 non-null    float64
 4   Comentarios   818 non-null    object 
dtypes: float64(1), int32(1), object(3)
memory usage: 39.8+ KB


Si bien lo vamos a ver más adelante, asi podemos cambiar el tipo de dato de una columna
* [Pandas data type](https://numpy.org/doc/2.3/user/basics.types.html#)
* [Caracter data type](https://numpy.org/doc/2.3/reference/arrays.dtypes.html#arrays-dtypes-constructing)

In [154]:
df["id"] = df["id"].astype("i")

In [None]:
df["Empresa"] = df["Empresa"].astype("string")

Usamos el método isnull que retorna un dataframe de iguales dimensiones, con True donde la celda es NaN y False en caso contrario

In [None]:
df.info()

In [None]:
df.isnull()

In [None]:
df.isnull().sum()

In [None]:
# Asi listamos los valores con alguna celda nula
df[df.isnull().any(axis=1)]

# Datos duplicados

In [None]:
# Cargar datos
df = pd.read_csv('satis_clientes.csv')
df.head()

In [None]:
# Identificar duplicados
duplicados = df.duplicated()
cantidad_duplicados = duplicados.sum()
print(f'Duplicados:\n{duplicados}')
print(f'Cantidad de duplicados: {cantidad_duplicados}')

In [None]:
# Crear subconjunto de duplicados
registros_duplicados = df[duplicados]
# Mostrar en consola

print(f'\nCantidad total de registros: {len(df)}')
print(f'Cantidad de registros duplicados: {cantidad_duplicados}')
print(registros_duplicados.head())

In [None]:
registros_duplicados.dtypes

In [None]:
duplicado_10 = df["id"].duplicated()
print(duplicado_10)

# Actividad 2: Exploración y limpieza preliminar con Python.
**Contexto**
En esta actividad, trabajarás guiado por Luis, nuestro Analista de BI, con una planilla de Google Sheets que registra la temperatura corporal de un grupo de personas durante 10 días. Debes realizar un examen preliminar para identificar datos problemáticos, como duplicados y valores nulos. Esta práctica te ayudará a dar los pasos previos a la limpieza de datos, un componente vital en cualquier proyecto de análisis.

**Objetivos**
* Identificar los datos duplicados y nulos en el conjunto.
* Analizar el mejor tratamiento para los datos anómalos y nulos.

**Ejercicio práctico**
1. Crear un dataframe a partir de la planilla de cálculo y efectuar un examen preliminar.
2. Identificar los datos:

  a. duplicados

  b. nulos
3. Analizá cuál sería el mejor tratamiento para los datos anómalos (fuera de rango) y nulos en los siguientes contextos **(YA RESUELTO)**:

<center><img src="https://drive.google.com/uc?id=1CaYiA8Sc5Z1KPEA6NZ2DYWuCzaihZ6BQ"></center>

**Sets de datos**
* [Actividad 2](https://docs.google.com/spreadsheets/d/1-rUn4TUwpGrLE1DH8moeiR5eSyeF-jOOTpfhRgZxVIQ/edit?usp=sharing)

**¿Por qué importa esto en SynthData?**

La exploración y limpieza de datos son pasos esenciales para garantizar que cualquier análisis posterior sea robusto y significativo. En SynthData, nos enfrentamos a datos en diferentes formatos, y es crucial asegurarnos de que estén listos para ser analizados. Esta actividad te enseñará a detectar problemas comunes en conjuntos de datos, como duplicados y valores nulos, y cómo abordarlos adecuadamente.



### 1) Crear el dataframe

In [None]:
# importar la librería
# crear el dataframe
# probar que se haya cargado el dataframe
import pandas as pd
df = pd.read_csv('https://docs.google.com/spreadsheets/d/1-rUn4TUwpGrLE1DH8moeiR5eSyeF-jOOTpfhRgZxVIQ/gviz/tq?tqx=out:csv&sheet=')
df.head()

In [None]:
from google.colab import sheets
sheet = sheets.InteractiveSheet(df=df)

###1.2) Exploración preliminar
Los métodos de exploración son esenciales para obtener una comprensión inicial de los datos y su estructura.
Algunos de los métodos más utilizados son:
* `df.head(n)`: muestra las primeras n filas del dataframe (por defecto n = 5).
* `df.tail(n)`: muestra las últimas n filas del dataframe.
* `df.info()`: proporciona un resumen del dataframe.
* `df.describe()`: genera estadísticas que veremos más adelante.
* `df.shape`: devuelve una tupla que contiene el número de filas y columnas del dataframe.
* `df.columns`: devuelve una lista de los nombre de las columnas del dataframe.
* `df.index`: devuelve los índices del dataframe.
* `df.dtypes`: devuelve los tipos de datos de cada columna.
* `df.isnull()`: devuelve un dataframe booleano que indica si hay valores nulos en el dataframe. Tiene una función inversa: `df.notnull()`.
* `df.value_counts()`: cuenta las ocurrencias de los valores de una serie.
* `df.unique()`: devuelve los valores únicos de una columna.
* `df.sample(n)`: devuelve una muestra aleatoria de n filas

In [None]:
# Muestra de los 4 primeros registros
df.head(4)

In [None]:
# Muestra de los últimos 6 registros
df.tail(6)

In [None]:
# Muestra los nombres de las columnas, cuántos valores hay en cada una, y qué tipo de dato contiene
df.info()

In [None]:
print(pd.Series([1, np.nan, 7]).dtypes)

In [None]:
# Muestra el resumen estadístico de las columnas. Conteo, promedio, mínimo y máximo...
df.describe()

In [None]:
# Cantidad de registros y columnas
df.shape

In [None]:
# Nombres de las columnas
df.columns

In [None]:
# Rango de los índices
df.index

In [None]:
# Tipo de dato que hay en cada columna
df.dtypes

In [None]:
# Un dataframe que muestra True donde falta el dato
df.isnull()

In [None]:
# Muestra cuántas veces se repiten los valores en cada columna
df['d1'].value_counts()

In [None]:
import matplotlib.pyplot as plt
df['d2'].hist(bins=20)
plt.show()

In [None]:
# Muestra los valores de una columna, sin repetidos
df['d1'].unique()

In [None]:
# Muestra aleatoria de 10 registros
df.sample(10)

❓ ¿Podrías decir si hay valores nulos en este dataframe?

✨ En un primer análisis, ya podemos decir que hay valores nulos:
tanto `shape` como `index` indican que hay 3018 registros, pero `info()` nos da la pauta de que la única columna que no tiene valores nulos es la de nombres.

###2) Ubicar datos duplicados y nulos

#### Duplicados
Para trabajar con datos duplicados, el método principal es `duplicated()` que devuelve un valor booleano por cada fila, indicando si es duplicado o no. Devuelve `True`, si una fila es duplicado de alguna anterior.
* Con el parámetro `subset`, permite buscar duplicados en columnas específicas.
* Combinada con otras funciones, podemos obtener más resultados, por ejemplo, `df.duplicated().sum()` cuenta  la cantidad de filas duplicadas


In [None]:
# Saber cuáles filas son duplicadas
df.duplicated()

In [111]:
# Contar la cantidad de filas duplicadas
print(df.duplicated().sum())

18


In [None]:
# Visualizar las filas duplicadas
df[df.duplicated()]

In [None]:
# Para un paciente dado, visualizar esas filas duplicadas
df[df["nombre"] == "Dagny Burree"]

Como poder visualizar todos los registros duplicados?
`df.duplicated(keep=???)`
* keep='first' (default) → solo las repeticiones después de la primera son True.
* keep='last' → solo las repeticiones antes de la última son True.
* keep=False → todas las ocurrencias de un duplicado son True.

In [None]:
# Asi puedo visualizar los registros
df[df.duplicated(keep=False)]

In [None]:
# Se puede mejorar aún ordenando los datos
df[df.duplicated(keep=False)].sort_values(by="nombre")

In [None]:
# Saber si las columnas d4, d5 y d6 tienen valos duplicados
df.duplicated(subset=["d4","d5","d6"])

In [None]:
df[df.duplicated(subset=["d4","d5","d6"], keep="last")]

In [None]:
df.value_counts()

#### Nulos
El método isnull() nos ofrece un dataframe con valores booleanos. Esta función puede combinarse con otras, para obtener diferentes resultados:

* Gracias al tipado dinámico de python, los valores booleanos se traducen automáticamente a 1 y 0, en caso de que alguna función lo requiera. Entonces, podemos utilizar la función sum() para obtener la cantidad de valores nulos en cada columna.
* any() se puede utilizar para verificar si hay valores nulos en filas (axis = 1) o columnas.

In [None]:
# Retorna un boolean para cada celda, True si es Null/NaN, False caso contrario
df.isnull()

In [None]:
# Cantidad de valores nulos
df.isnull().sum()

In [None]:
# Nulos
df.isnull().any() # en columnas
df.isnull().any(axis = 1) # en filas (podremos saber qué registros tienen completos sus datos)

In [142]:
df[df.isnull().any(axis = 1)]

Unnamed: 0,nombre,d1,d2,d3,d4,d5,d6,d7,d8,d9,d10
2,Almeta Meredith,36.89,37.74,36.16,36.59,37.93,37.12,36.34,36.04,,37.05
3,Massimiliano Waller,36.50,37.91,,36.16,37.41,37.73,36.57,37.94,36.03,36.80
5,Haleigh Rumgay,36.47,36.07,,37.28,36.74,36.57,37.21,36.98,36.55,36.73
7,Roger Sizzey,37.59,37.43,37.93,36.02,36.90,37.65,36.47,,37.86,36.95
10,Winona Barck,36.79,36.06,37.05,36.13,37.82,36.58,36.34,36.38,,37.83
...,...,...,...,...,...,...,...,...,...,...,...
3008,Wally Jahncke,37.35,36.92,37.10,37.60,37.82,36.52,37.16,,37.24,37.35
3009,Morgana Izaks,37.11,37.13,,,36.71,37.30,37.45,36.81,37.25,36.51
3010,Desiree Gibbett,37.07,37.73,37.79,37.34,37.81,37.06,37.52,,37.95,37.32
3011,Anabelle Kleinbaum,37.48,,36.81,36.44,37.03,37.14,36.27,37.79,36.53,36.71


💡 Podemos filtrar el dataframe para mostrar sólo las filas que contienen valores nulos en una columna específica.
La sintaxis es la siguiente: `df[df["columna"].isnull()]`

En clase 5 comenzaremos a ver tecnicas para imputación de nulos, aquí un anticipo

In [143]:
dfclean = df.dropna()

In [None]:
dfclean.isnull().sum()

In [148]:
df_0 = df.fillna(0)

In [150]:
df_mean = df.fillna(df.mean(numeric_only=True))