# <font color=900C3F>LIMPEZA DE DATOS (VALORES NULOS Y OUTLIERS)</font>

---

## <font color=#FF5733>REQUISITOS:</font>

> Los datos importados en este cuaderno han sido organizados en una fase anterior a esta, donde los datos, han pasado por un procesamiento de carga, tratamiento de estructura de columnas, traducción al español y fusion de los datos en un unico CSV.
> 
> El proceso de limpieza de los datos tiene como objetivo verificar si hay valores nulos y outiliers en el conjunto de datos importados a este cuaderno.
> 
> Habiendo valores nulos y outiliers, estos valores deben ser tratados.
> 
> Outiliers son valores atípicos que pueden presentarse en un conjunto de datos y deben ser tratados.
> 
> El proceso de limpieza de Outiliers debe aplicar la técnica de los "Cuartiles" para eliminar los valores atípicos.
> 
> El proceso de tratamiento de Outliers empieza después del tratamiento de valores nulos.
>  
> Después de hacer la limpieza de los datos, este proceso debe generar un fichero en formato CSV, para ser usado en la proxima fase del proyecto.

---

## <font color=#FF5733>SITUACIÓN ACTUAL:</font>

> Al analisar los datos importados:

## <font color=#FF5733>Importar Librerías</font>

In [77]:
import numpy as np
import pandas as pd
import seaborn as sns
import matplotlib.pyplot as plt

%matplotlib inline

## <font color=#FF5733>Importar CSVs</font>

### <font color=#186a3b>--> Definir las rutas de los ficheros leídos y generados en el proceso de carga de datos </font>

In [78]:
# Definir la ruta donde se encuentra la carpeta y los CSVs que iremos trabajar
ruta_informes = '../data/informes/estadisticas_carga_ficheros.csv'
ruta_nuevoCSV = '../data/ficheros_procesados/datos_preprocesados.csv'
ruta_carpeta = '../data/'
ruta_datos_preprocesados = '../data/ficheros_procesados/datos_preprocesados.csv'

# Creación del DataFrame
df = pd.read_csv(ruta_datos_preprocesados, delimiter=",", engine="python")
df.head(2)

Unnamed: 0,ANO,PAIS,REGION,ECONOMIA_PIB_PER_CAPITA,APOYO_SOCIAL,SALUD_ESPERANZA_DE_VIDA,LIBERTAD,PERCEPCION_CORRUPCION,GENEROSIDAD
0,2015,Islandia,Europa Occidental,1.30232,1.40223,0.94784,0.62877,0.14145,0.4363
1,2015,Dinamarca,Europa Occidental,1.32548,1.36058,0.87464,0.64938,0.48357,0.34139


### Cantidad de datos importados

In [79]:
df.shape

(54, 9)

### Estadística Descriptiva - SITUACIÓN ACTUAL

#### Estructura de columnas (tipos de datos)

In [80]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 54 entries, 0 to 53
Data columns (total 9 columns):
 #   Column                   Non-Null Count  Dtype  
---  ------                   --------------  -----  
 0   ANO                      54 non-null     int64  
 1   PAIS                     54 non-null     object 
 2   REGION                   54 non-null     object 
 3   ECONOMIA_PIB_PER_CAPITA  54 non-null     float64
 4   APOYO_SOCIAL             54 non-null     float64
 5   SALUD_ESPERANZA_DE_VIDA  54 non-null     float64
 6   LIBERTAD                 54 non-null     float64
 7   PERCEPCION_CORRUPCION    54 non-null     float64
 8   GENEROSIDAD              54 non-null     float64
dtypes: float64(6), int64(1), object(2)
memory usage: 3.9+ KB


#### Resumen 1: Estadística Descriptiva

In [81]:
df.describe().apply(lambda s: s.apply('{0:.2f}'.format))

Unnamed: 0,ANO,ECONOMIA_PIB_PER_CAPITA,APOYO_SOCIAL,SALUD_ESPERANZA_DE_VIDA,LIBERTAD,PERCEPCION_CORRUPCION,GENEROSIDAD
count,54.0,54.0,54.0,54.0,54.0,54.0,54.0
mean,2019.0,1.51,1.39,0.84,0.62,0.33,0.26
std,2.61,0.23,0.19,0.14,0.1,0.16,0.09
min,2015.0,1.23,1.06,0.54,0.36,0.06,0.1
25%,2017.0,1.34,1.22,0.79,0.58,0.15,0.19
50%,2019.0,1.44,1.48,0.85,0.65,0.39,0.25
75%,2021.0,1.57,1.55,0.95,0.69,0.45,0.35
max,2023.0,2.0,1.64,1.06,0.77,0.54,0.48


#### Resumen 2: Estadística Descriptiva

In [82]:
# df.describe().round(2).T
df.describe().T.apply(lambda s: s.apply('{0:.2f}'.format))


Unnamed: 0,count,mean,std,min,25%,50%,75%,max
ANO,54.0,2019.0,2.61,2015.0,2017.0,2019.0,2021.0,2023.0
ECONOMIA_PIB_PER_CAPITA,54.0,1.51,0.23,1.23,1.34,1.44,1.57,2.0
APOYO_SOCIAL,54.0,1.39,0.19,1.06,1.22,1.48,1.55,1.64
SALUD_ESPERANZA_DE_VIDA,54.0,0.84,0.14,0.54,0.79,0.85,0.95,1.06
LIBERTAD,54.0,0.62,0.1,0.36,0.58,0.65,0.69,0.77
PERCEPCION_CORRUPCION,54.0,0.33,0.16,0.06,0.15,0.39,0.45,0.54
GENEROSIDAD,54.0,0.26,0.09,0.1,0.19,0.25,0.35,0.48


## <font color=#FF5733>Verificar si hay valores Nulos</font>

In [83]:
df.isnull().sum()

ANO                        0
PAIS                       0
REGION                     0
ECONOMIA_PIB_PER_CAPITA    0
APOYO_SOCIAL               0
SALUD_ESPERANZA_DE_VIDA    0
LIBERTAD                   0
PERCEPCION_CORRUPCION      0
GENEROSIDAD                0
dtype: int64

<font color=#DAF>👨‍💻 `¡Imortante!` No hay que hacer tratamiento de valores nulos porque todos los datos viene rellenados en el CSV importado.</font>

## <font color=#FF5733>Análisis Exploratória - Valores Atípico (Outliers)</font>

Empezamos por analisar si hay valores atípico en nuestro conjunto de datos y luego identificamos por medio de las gráficas de bigotes (BoxPlot), cuales son los valores que estan fuera del Rango Intercuartil".

In [84]:
df.columns

Index(['ANO', 'PAIS', 'REGION', 'ECONOMIA_PIB_PER_CAPITA', 'APOYO_SOCIAL',
       'SALUD_ESPERANZA_DE_VIDA', 'LIBERTAD', 'PERCEPCION_CORRUPCION',
       'GENEROSIDAD'],
      dtype='object')

In [85]:
# funcion que dado un determinado dataframe genera una tabla con los valores de parámetros de Cuartiles que vamos 
# aplicar en el tramamiento de Outiers.
def calcular_estadisticas(df):
    # Crear un nuevo DataFrame para almacenar los resultados de los cuartiles
    resultados_df = pd.DataFrame(
        columns=[
            "Columna",
            "Cuartil 0.25",
            "Cuartil 0.50",
            "Cuartil 0.75",
            "Rango intercuartil",
        ]
    )

    # Crea una lista con las variables que queremos verificar los cuartiles
    numeric_columns = [
        "ECONOMIA_PIB_PER_CAPITA",
        "APOYO_SOCIAL",
        "SALUD_ESPERANZA_DE_VIDA",
        "LIBERTAD",
        "PERCEPCION_CORRUPCION",
        "GENEROSIDAD"
    ]

    # Calcular los cuartiles y los rangos intercuartiles para cada columna
    for columna in numeric_columns:
        Q1 = df[columna].quantile(0.25)
        Q2 = df[columna].quantile(0.50)
        Q3 = df[columna].quantile(0.75)
        IQR = Q3 - Q1
        limite_inferior = Q1 - 1.5 * IQR
        limite_superior = Q3 + 1.5 * IQR

        new_row = pd.DataFrame(
            {
                "Columna": columna,
                "Cuartil 0.25": Q1,
                "Cuartil 0.50": Q2,
                "Cuartil 0.75": Q3,
                "Rango intercuartil": IQR,
                "Limite inferior": limite_inferior,
                "Limite superior": limite_superior,
            },
            index=[0],
        )

        resultados_df = pd.concat([resultados_df, new_row], ignore_index=True)

    # retorna un nuevo DataFrame (resultados_df) con los resultados
    return resultados_df.head(15).round(2)

In [86]:
%%time 
# LLama la función para conocernos los valores de los parámetros del procesos de los cuartiles que iremos aplicar a 
# nuestro conjunto de datos. Esta tabla tambien sirve para la documentación del proyecto.
calcular_estadisticas(df)

CPU times: total: 78.1 ms
Wall time: 87 ms


Unnamed: 0,Columna,Cuartil 0.25,Cuartil 0.50,Cuartil 0.75,Rango intercuartil,Limite inferior,Limite superior
0,ECONOMIA_PIB_PER_CAPITA,1.34,1.44,1.57,0.23,1.0,1.91
1,APOYO_SOCIAL,1.22,1.48,1.55,0.33,0.73,2.04
2,SALUD_ESPERANZA_DE_VIDA,0.79,0.85,0.95,0.17,0.54,1.2
3,LIBERTAD,0.58,0.65,0.69,0.1,0.43,0.84
4,PERCEPCION_CORRUPCION,0.15,0.39,0.45,0.29,-0.28,0.89
5,GENEROSIDAD,0.19,0.25,0.35,0.16,-0.05,0.58


### <font color=#FF5733>Gráficas (Situación Actual)</font>


## <font color=#FF5733>Generar nuevo CSV con los datos cargados y preprocesados</font>

In [87]:
df.to_csv(ruta_nuevoCSV, index=False)