# Actividad 2: Exploración y limpieza preliminar con Python.
**Contexto**
En esta actividad, trabajarás con una planilla de Excel que registra la temperatura corporal de un grupo de personas durante 10 días. Debes realizar un examen preliminar para identificar datos problemáticos, como duplicados y valores nulos. Esta práctica te ayudará a dar los pasos previos a la limpieza de datos, un componente vital en cualquier proyecto de análisis.

**Objetivos**
* Identificar los datos duplicados y nulos en el conjunto.
* Analizar el mejor tratamiento para los datos anómalos y nulos.

**Ejercicio práctico**
1. Crear un dataframe a partir de la planilla de cálculo y efectuar un examen preliminar.
2. Identificar los datos:

  a. duplicados

  b. nulos
  
3. Analizá cuál sería el mejor tratamiento para los datos anómalos (fuera de rango) y nulos en los siguientes contextos:

| Contexto                        | Tipo de dato | Ignorar | Eliminar | Reemplazar | Analizar |
|---------------------------------|--------------|---------|----------|------------|----------|
| Estudio estadístico             | anómalos     |         |     x     |            |        x  |
|                                 | nulos        |         |      x    |            |        x  |
| Seguimiento de un paciente      | anómalos     |         |          |            |          |
|                                 | nulos        |         |          |            |          |
| Detección de casos de contagio  | anómalos     |         |          |            |          |
|                                 | nulos        |         |          |            |          |

Esta tabla apunta a mostrar que **la decisión depende del contexto**. No siempre vamos a tratar los datos anómalos o nulos de la misma forma.

In [5]:
# Importamos la libreria
import pandas as pd

# Creamos el dataframe df con los datos del archivo XLSX
df = pd.read_excel("Actividad 2.xlsx")

# Vemos las primeras filas
display(df.head(10))

# Vemos las últimas filas
display(df.tail(3))

Unnamed: 0,nombre,d1,d2,d3,d4,d5,d6,d7,d8,d9,d10
0,Marcellus Antosik,36.85,36.01,37.36,37.85,36.31,36.55,36.71,37.79,36.44,36.86
1,Olia Thomson,36.06,36.42,36.16,36.03,36.0,36.08,37.45,37.92,37.53,36.54
2,Almeta Meredith,36.89,37.74,36.16,36.59,37.93,37.12,36.34,36.04,,37.05
3,Massimiliano Waller,36.5,37.91,,36.16,37.41,37.73,36.57,37.94,36.03,36.8
4,Melody Fedynski,37.9,37.69,36.55,37.06,37.81,36.77,36.89,36.35,37.36,37.08
5,Haleigh Rumgay,36.47,36.07,,37.28,36.74,36.57,37.21,36.98,36.55,36.73
6,Bobette Klimov,36.27,36.16,37.43,37.62,37.54,37.87,36.91,37.91,36.84,36.13
7,Roger Sizzey,37.59,37.43,37.93,36.02,36.9,37.65,36.47,,37.86,36.95
8,Brod Antonellini,36.72,36.68,37.64,36.02,37.92,37.18,36.92,37.05,37.99,36.13
9,Maris Shillinglaw,36.32,37.52,36.22,37.0,36.05,36.47,36.51,37.37,37.29,37.17


Unnamed: 0,nombre,d1,d2,d3,d4,d5,d6,d7,d8,d9,d10
3015,Vic Zanotti,37.19,36.49,37.24,37.1,36.27,37.42,36.92,36.54,37.13,37.02
3016,Hoyt Koenen,37.57,37.23,36.76,36.17,36.61,37.21,37.66,37.18,36.45,36.68
3017,Artus Simmill,37.09,36.26,36.25,36.27,36.72,37.28,37.19,37.13,37.89,36.42


### 1.2) Exploración preliminar
Los métodos de exploración son esenciales para obtener una comprensión inicial de los datos y su estructura.
Algunos de los métodos más utilizados son:
* `df.head(n)`: muestra las primeras n filas del dataframe (por defecto n = 5).
* `df.tail(n)`: muestra las últimas n filas del dataframe.
* `df.info()`: proporciona un resumen del dataframe.
* `df.describe()`: genera estadísticas que veremos más adelante.
* `df.shape`: devuelve una tupla que contiene el número de filas y columnas del dataframe.
* `df.columns`: devuelve una lista de los nombre de las columnas del dataframe.
* `df.index`: devuelve los índices del dataframe.
* `df.dtypes`: devuelve los tipos de datos de cada columna.
* `df.isnull()`: devuelve un dataframe booleano que indica si hay valores nulos en el dataframe. Tiene una función inversa: `df.notnull()`.
* `df.value_counts()`: cuenta las ocurrencias de los valores de una serie.
* `df.unique()`: devuelve los valores únicos de una columna.
* `df.sample(n)`: devuelve una muestra aleatoria de n filas

**TIP**: `df['d1'].value_counts()` Muestra cuántas veces se repiten los valores en la(s) columna(s)

In [None]:
# Muestra cuántas veces se repiten los valores en una(s) columna(s)


## ¿Podrías decir si hay valores duplicados o nulos en este dataframe?

En un primer análisis, ya podemos decir que hay valores nulos:
tanto `shape` como `index` indican que hay 3018 registros, pero `info()` nos da la pauta de que la única columna que no tiene valores nulos es la de nombres.

In [9]:
# Saber cuáles filas son duplicado
# df.duplicated()

#a = df.duplicated().sum()
#print("Las filas duplicadas son", a)

# Saber si algunas columnas tienen valor duplicado
df.duplicated(subset=["d1","d2","d3"]).sum()

# Contar la cantidad de filas duplicadas


np.int64(19)

### Nulos
El método isnull() nos ofrece un dataframe con valores booleanos. Esta función puede combinarse con otras, para obtener diferentes resultados:


In [21]:
# Cantidad de valores nulos
# cantidad de nulos por columna.

# df.isnull().sum()

# ¿Hay ALGUN nulo en la columna?
# display(df.isnull().any())
# df.isnull().any(axis=0)

# ¿Hay ALGUN nulo en la fila?
# df.isnull().any(axis=1)


# Filas con al menos un nulo
nulos = df[df.isnull().any(axis=1)]

display(nulos)



Unnamed: 0,nombre,d1,d2,d3,d4,d5,d6,d7,d8,d9,d10
2,Almeta Meredith,36.89,37.74,36.16,36.59,37.93,37.12,36.34,36.04,,37.05
3,Massimiliano Waller,36.50,37.91,,36.16,37.41,37.73,36.57,37.94,36.03,36.80
5,Haleigh Rumgay,36.47,36.07,,37.28,36.74,36.57,37.21,36.98,36.55,36.73
7,Roger Sizzey,37.59,37.43,37.93,36.02,36.90,37.65,36.47,,37.86,36.95
10,Winona Barck,36.79,36.06,37.05,36.13,37.82,36.58,36.34,36.38,,37.83
...,...,...,...,...,...,...,...,...,...,...,...
3008,Wally Jahncke,37.35,36.92,37.10,37.60,37.82,36.52,37.16,,37.24,37.35
3009,Morgana Izaks,37.11,37.13,,,36.71,37.30,37.45,36.81,37.25,36.51
3010,Desiree Gibbett,37.07,37.73,37.79,37.34,37.81,37.06,37.52,,37.95,37.32
3011,Anabelle Kleinbaum,37.48,,36.81,36.44,37.03,37.14,36.27,37.79,36.53,36.71


## Filtros

Podemos filtrar el dataframe para mostrar sólo las filas que contienen valores nulos en una columna específica.
La sintaxis es la siguiente: `df[df["columna"].isnull()]`

In [33]:
# Obtenemos los registros que tengan valores nulos en el día 7
# df[df[subset=["d7","d8"]].isnull()]
filas_con_nulo = df[df["d7"].isnull()]
display(filas_con_nulo)
# df[df["d7"].isnull() | df["d8"].isnull()]

Unnamed: 0,nombre,d1,d2,d3,d4,d5,d6,d7,d8,d9,d10
22,Kellsie Donahue,36.23,37.71,36.50,,37.67,37.83,,36.02,37.84,36.84
49,Sonya Seignior,37.76,36.67,37.83,36.54,37.79,37.35,,37.34,37.44,37.55
69,Cherey Frenzel,,37.90,36.00,37.02,36.13,37.94,,,37.13,37.78
159,Nerita Moorhead,36.15,37.97,37.97,37.69,36.02,36.25,,36.86,36.71,36.30
179,Harmony Becerro,36.91,36.04,37.18,37.19,36.96,,,37.03,36.56,37.98
...,...,...,...,...,...,...,...,...,...,...,...
2955,Evangeline Vaux,36.44,37.76,36.55,,36.06,37.74,,37.92,37.65,36.28
2957,Terrie Pettingall,37.86,37.36,36.37,37.94,36.73,37.20,,37.26,37.34,36.71
2965,Jarrett Meagher,37.07,36.64,36.95,36.51,36.62,36.06,,37.14,36.04,36.48
2986,Reginauld Verdie,37.52,37.84,37.67,36.56,36.19,37.22,,37.98,36.41,36.00
