# Datos Nulos y Duplicados
**Objetivo:**
* Familiarizarse con la identificaci√≥n de valores nulos en un DataFrame.
* Reconocer y contar duplicados en un conjunto de datos.


# Datos Nulos




**Instrucciones:**

1. Descargar el siguiente conjunto de datos: [satis_clientes.csv](https://drive.google.com/file/d/169MG1sSG8IqTtLdJwIlnBOhMkF_CN_Tb/view?usp=drive_link).
2. Cargar los datos en un DataFrame en Python usando Pandas.
Utilizar el m√©todo `isnull()` para identificar las filas con datos faltantes y contar el n√∫mero de valores nulos por columna.
3. Usar el m√©todo `duplicated()` para identificar las filas duplicadas y contar cu√°ntas filas duplicadas hay en total.
4. Crear un informe que incluya:
  * La cantidad total de registros en el DataFrame.
  * La cantidad total de valores nulos por columna.
  * La cantidad de filas duplicadas.
  * Un subconjunto de los registros duplicados para que se vea el contenido.  



## Ver en documentaci√≥n oficial

[Pandas Working with missing data](https://pandas.pydata.org/docs/user_guide/missing_data.html)
[NumPy Data Types](https://numpy.org/doc/2.3/user/basics.types.html)

**Sobre NULL**

* NULL es la representaci√≥n en bases de datos SQL.
* Cuando import√°s datos a pandas (ej: con pd.read_sql o pd.read_csv), esos NULL se convierten en NaN o NaT dentro de pandas.
* En pandas casi siempre vas a ver NaN (nulos num√©ricos/objetos) o NaT (nulos de tiempo).
* No vas a ver NULL directamente, salvo en la base de datos antes de importar.

## Veamos algunos comandos antes de comenzar
De forma similar a numpy, pandas tambi√©n tiene algunas funciones √∫tiles para identificar y detectar valores nulos.

In [1]:
import numpy as np
import pandas as pd

La funci√≥n pd.isnulll() detecta valores nulos (como NaN, None, etc.) y devuelve True si el valor es nulo, o False si no lo es.

In [2]:
pd.isnull(np.nan)

True

In [3]:
pd.isnull(None)

True

La funci√≥n pd.isna() en pandas se utiliza para detectar valores nulos (missing values) en objetos, como NaN, None, etc.

In [4]:
pd.isna(np.nan)

True

In [5]:
pd.isna(None)

True

Tambi√©n podemos usarlo con Series

In [6]:
pd.isnull(pd.Series([1, np.nan, 7]))

Unnamed: 0,0
0,False
1,True
2,False


O incluso con Dataframes

In [7]:
pd.isnull(pd.DataFrame({
    'Column A': [1, np.nan, 7],
    'Column B': [np.nan, 2, 3],
    'Column C': [np.nan, 2, np.nan]
}))

Unnamed: 0,Column A,Column B,Column C
0,False,True,True
1,True,False,False
2,False,False,True


## Veamos con un caso mas complejo

In [None]:
# Al ejecutar este bloque, Google nos solicitar√° los permisos
from google.colab import drive
drive.mount('/content/drive')

In [None]:
#Para facilitar las tareas, podemos cambiar la ruta de trabajo con el m√©todo chdir() de la librer√≠a os de python.
import os
os.chdir('/content/drive/MyDrive/datasets')
# os.chdir('/content/drive/My Drive/{mi ruta de carpetas}')
!ls # muestra el contenido de la carpeta

In [None]:
import pandas as pd

# Cargar datos
df = pd.read_csv('satis_clientes.csv')
df.head()

In [None]:
df.info()

Si bien lo vamos a ver m√°s adelante, asi podemos cambiar el tipo de dato de una columna

In [None]:
df["Empresa"] = df["Empresa"].astype("string")

In [None]:
# Identificar valores nulos
valores_nulos = df.isnull().sum()
print(f'Valores nulos: \n{valores_nulos}')

In [None]:
# Asi listamos los valores con alguna celda nula
df[df.isnull().any(axis=1)]

Incluso podemos representar gr√°ficamente los valos nulos (NaN)

In [None]:
import seaborn as sns
import matplotlib.pyplot as plt

sns.heatmap(df.isnull())
plt.show()

Vamos a cargar datos de una DB que tiene Nulls

In [None]:
# Importamos las librer√≠as
import sqlite3

In [None]:
#Establecemos la conexi√≥n a la db
conexion = sqlite3.connect('/content/drive/MyDrive/datasets/booking_db_nulls.sqlite')

In [None]:
df = pd.read_sql('''
    SELECT
        *
    FROM reviews
    ;
''', conexion, index_col='review_id', parse_dates=['review_date'])

In [None]:
df.info()

In [None]:
df.isnull().sum()

In [None]:
df[df.isnull().any(axis=1)]

# Datos duplicados

In [None]:
# Cargar datos
df = pd.read_csv('satis_clientes.csv')
df.head()

In [None]:
# Identificar duplicados
duplicados = df.duplicated()
cantidad_duplicados = duplicados.sum()
print(f'Duplicados:\n{duplicados}')
print(f'Cantidad de duplicados: {cantidad_duplicados}')

In [None]:
# Crear subconjunto de duplicados
registros_duplicados = df[duplicados]
# Mostrar en consola

print(f'\nCantidad total de registros: {len(df)}')
print(f'Cantidad de registros duplicados: {cantidad_duplicados}')
print(registros_duplicados.head())

In [None]:
registros_duplicados.dtypes

In [None]:
duplicado_10 = df["id"].duplicated()
print(duplicado_10)

# Actividad 2: Exploraci√≥n y limpieza preliminar con Python.
**Contexto**
En esta actividad, trabajar√°s guiado por Luis, nuestro Analista de BI, con una planilla de Google Sheets que registra la temperatura corporal de un grupo de personas durante 10 d√≠as. Debes realizar un examen preliminar para identificar datos problem√°ticos, como duplicados y valores nulos. Esta pr√°ctica te ayudar√° a dar los pasos previos a la limpieza de datos, un componente vital en cualquier proyecto de an√°lisis.

**Objetivos**
* Identificar los datos duplicados y nulos en el conjunto.
* Analizar el mejor tratamiento para los datos an√≥malos y nulos.

**Ejercicio pr√°ctico**
1. Crear un dataframe a partir de la planilla de c√°lculo y efectuar un examen preliminar.
2. Identificar los datos:

  a. duplicados

  b. nulos
3. Analiz√° cu√°l ser√≠a el mejor tratamiento para los datos an√≥malos (fuera de rango) y nulos en los siguientes contextos **(YA RESUELTO)**:

<center><img src="https://drive.google.com/uc?id=1CaYiA8Sc5Z1KPEA6NZ2DYWuCzaihZ6BQ"></center>

**Sets de datos**
* [Actividad 2](https://docs.google.com/spreadsheets/d/1-rUn4TUwpGrLE1DH8moeiR5eSyeF-jOOTpfhRgZxVIQ/edit?usp=sharing)

**¬øPor qu√© importa esto en SynthData?**

La exploraci√≥n y limpieza de datos son pasos esenciales para garantizar que cualquier an√°lisis posterior sea robusto y significativo. En SynthData, nos enfrentamos a datos en diferentes formatos, y es crucial asegurarnos de que est√©n listos para ser analizados. Esta actividad te ense√±ar√° a detectar problemas comunes en conjuntos de datos, como duplicados y valores nulos, y c√≥mo abordarlos adecuadamente.



### 1) Crear el dataframe

In [None]:
# importar la librer√≠a
# crear el dataframe
# probar que se haya cargado el dataframe
import pandas as pd
df = pd.read_csv('https://docs.google.com/spreadsheets/d/1-rUn4TUwpGrLE1DH8moeiR5eSyeF-jOOTpfhRgZxVIQ/gviz/tq?tqx=out:csv&sheet=')
df

###1.2) Exploraci√≥n preliminar
Los m√©todos de exploraci√≥n son esenciales para obtener una comprensi√≥n inicial de los datos y su estructura.
Algunos de los m√©todos m√°s utilizados son:
* `df.head(n)`: muestra las primeras n filas del dataframe (por defecto n = 5).
* `df.tail(n)`: muestra las √∫ltimas n filas del dataframe.
* `df.info()`: proporciona un resumen del dataframe.
* `df.describe()`: genera estad√≠sticas que veremos m√°s adelante.
* `df.shape`: devuelve una tupla que contiene el n√∫mero de filas y columnas del dataframe.
* `df.columns`: devuelve una lista de los nombre de las columnas del dataframe.
* `df.index`: devuelve los √≠ndices del dataframe.
* `df.dtypes`: devuelve los tipos de datos de cada columna.
* `df.isnull()`: devuelve un dataframe booleano que indica si hay valores nulos en el dataframe. Tiene una funci√≥n inversa: `df.notnull()`.
* `df.value_counts()`: cuenta las ocurrencias de los valores de una serie.
* `df.unique()`: devuelve los valores √∫nicos de una columna.
* `df.sample(n)`: devuelve una muestra aleatoria de n filas

In [None]:
# Muestra de los 4 primeros registros
df.head(4)

In [None]:
# Muestra de los √∫ltimos 6 registros
df.tail(6)

In [None]:
# Muestra los nombres de las columnas, cu√°ntos valores hay en cada una, y qu√© tipo de dato contiene
df.info()

In [None]:
# Muestra el resumen estad√≠stico de las columnas. Conteo, promedio, m√≠nimo y m√°ximo...
df.describe()

In [None]:
# Cantidad de registros y columnas
df.shape

In [None]:
# Nombres de las columnas
df.columns

In [None]:
# Rango de los √≠ndices
df.index

In [None]:
# Tipo de dato que hay en cada columna
df.dtypes

In [None]:
# Un dataframe que muestra True donde falta el dato
df.isnull()

In [None]:
# Muestra cu√°ntas veces se repiten los valores en cada columna
df['d1'].value_counts()

In [None]:
# Muestra los valores de una columna, sin repetidos
df['d1'].unique()

In [None]:
# Muestra aleatoria de 10 registros
df.sample(10)

‚ùì ¬øPodr√≠as decir si hay valores nulos en este dataframe?

‚ú® En un primer an√°lisis, ya podemos decir que hay valores nulos:
tanto `shape` como `index` indican que hay 3018 registros, pero `info()` nos da la pauta de que la √∫nica columna que no tiene valores nulos es la de nombres.

###2) Ubicar datos duplicados y nulos

#### Duplicados
Para trabajar con datos duplicados, el m√©todo principal es `duplicated()` que devuelve un valor booleano por cada fila, indicando si es duplicado o no. Devuelve `True`, si una fila es duplicado de alguna anterior.
* Con el par√°metro `subset`, permite buscar duplicados en columnas espec√≠ficas.
* Combinada con otras funciones, podemos obtener m√°s resultados, por ejemplo, `df.duplicated().sum()` cuenta  la cantidad de filas duplicadas


In [None]:
# Saber cu√°les filas son duplicado
df.duplicated()

In [None]:
# Saber si las columnas d4, d5 y d6 tienen valos duplicados
df.duplicated(subset=["d4","d5","d6"])

#### Nulos
El m√©todo isnull() nos ofrece un dataframe con valores booleanos. Esta funci√≥n puede combinarse con otras, para obtener diferentes resultados:

* Gracias al tipado din√°mico de python, los valores booleanos se traducen autom√°ticamente a 1 y 0, en caso de que alguna funci√≥n lo requiera. Entonces, podemos utilizar la funci√≥n sum() para obtener la cantidad de valores nulos en cada columna.
* any() se puede utilizar para verificar si hay valores nulos en filas (axis = 1) o columnas.

In [None]:
# Cantidad de valores nulos
df.isnull().sum()

In [None]:
# Nulos
df.isnull().any() # en columnas
df.isnull().any(axis = 1) # en filas (podremos saber qu√© registros tienen completos sus datos)

üí° Podemos filtrar el dataframe para mostrar s√≥lo las filas que contienen valores nulos en una columna espec√≠fica.
La sintaxis es la siguiente: `df[df["columna"].isnull()]`

In [None]:
# Obtenemos los registros que tengan valores nulos en el d√≠a 7
df[df["d7"].isnull()]

---
<center>
<img src="https://drive.google.com/uc?id=1Siw64v_zlLaIAqtT7uxj8l9POO9C9b7j">
</center>