# **Pandas**

## Introducción a la Limpieza de Conjuntos de Datos

## **0. Importar las librerías**

In [1]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
import tabulate
sns.set_theme(style="whitegrid")
pd.set_option('display.max_columns', None)
pd.set_option('display.max_rows', None)

## **1. Recolectar y Cargar un conjunto de datos tabulares.**

+ Vamos a utilizar el dataset:

https://archive.ics.uci.edu/dataset/10/automobile

### Acceso a archivos usando Google Colab

In [None]:
#Al ejecutar esta celda, Google Colab va a acceder a su Drive

from google.colab import drive
drive.mount('/gdrive')

In [2]:
# Vamos a leer el conjunto de datos en un dataframe de pandas.

df = pd.read_csv('datasets/auto.csv')


## **2. Análisis Exploratorio de los Datos - Limpieza - Preparación**

## **2.1 Conocimiento básico del Dataset**

### a. Tamaño del dataset

In [None]:
# Usando el método shape se puede encontrar el tamaño del conjunto de datos
df.shape

In [None]:
# ¿Cuál es el número de observaciones?
# ¿Cuál es la cantidad de atributos?

In [None]:
print(f"El número de observaciones es: {df.shape[0]}")
print(f"El número de atributos es: {df.shape[1]}")

### b. Vista preliminar

In [None]:
# Con el método head se pueden observar los primeros elementos del Dataframe

df.head()

In [None]:
# Con el método tail se pueden observar los últimos elementos del Dataframe

df.tail()

### Vamos a volver a cargar el conjunto de datos pero sin Header en las columnas

In [None]:
df = pd.read_csv('auto.csv', header=None)

In [None]:
df.head()

### Vamos a ponerle el nombre a las columnas

In [None]:
headers = ["symboling","normalized-losses","make","fuel-type","aspiration", "num-of-doors","body-style",
         "drive-wheels","engine-location","wheel-base", "length","width","height","curb-weight","engine-type",
         "num-of-cylinders", "engine-size","fuel-system","bore","stroke","compression-ratio","horsepower",
         "peak-rpm","city-mpg","highway-mpg","price"]

In [None]:
df.columns = headers

In [None]:
df.head()

### Vamos a reemplazar los ? por nan

In [None]:
df = df.replace('?',np.nan)

In [None]:
df[20:50]

### c. Columnas y tipos de datos

In [None]:
# El método info de un dataframe permite consultar información como el número de
# registros (observaciones) y de columnas (atributos) con los tipos de datos correspondientes,
# el número de registros presentes no nulos, y el tamaño que ocupa el dataframe en memoria

df.info()

In [None]:
# El método dtypes permite ver el tipo de dato de cada una de las columnas

df.dtypes

### d. Datos nulos

In [None]:
# Para determinar valores faltantes se usa el método isna() del Dataframe.

df.isna()

In [None]:
# Así se puede obsrvar la cantidad de valores nulos por columna.

df.isna().sum()

In [None]:
## Vamos a mostrar el porcentaje de nulos por columna

serie_1 = df.isna().sum()

for column in serie_1.index:
    por = 100*serie_1[column]/df.shape[0]
    print(f"El porcentaje de nulos en la columna {column} es: {por:.2f}%")


In [None]:
serie_1 = df.isna().sum()
100*serie_1/df.shape[0]

### e. Datos repetidos

In [None]:
# Para determinar valores duplicados se usa el método duplicated() del Dataframe

df.duplicated()

In [None]:
# Así se puede obsrvar la cantidad de duplicados en todo el Dataframe.

df.duplicated().sum()

### **2.2 Análisis Univariado**

Incluye:
+ Medidas de tendencia central: media, mediana, moda.
+ Medidas de dispersión: rango, varianza, valor máximo y mínimo, cuartiles (incluyendo rango intercuartil) y desviación estándar.
+ Para variables numéricas discretas y categóricas: cantidad de valores únicos, valor con mayor frecuencia, etc.

También se pueden se pueden usar gráficos como:
+ Histogramas.
+ Para variables numéricas discretas y categóricas: gráficos de barras, gráficos circulares.

### a. Estadísticas básicas

In [None]:
# Se obtienen algunas estadísticas básicas para cada uno de los atributos numéricos

df.describe()

In [None]:
# Se obtienen algunas estadísticas básicas para todos los atributos

df.describe(include ='all')

In [None]:
# Se obtienen algunas estadísticas básicas para los atributos categóricos

df.describe(include ='object')

### b. Histogramas

Los histogramas pueden ser útiles para identificar visualmente la forma como se distribuyen los valores de un atributo.

In [None]:
#Ahora generemos el histograma usando la librería seaborn.

plt.figure(figsize=(15,6))
atribute = 'horsepower'
num_bins = 20
sns.histplot(data     = df,
             x        =atribute,
             bins     = num_bins,
             color    = 'red',
             fill     = True,
             stat     = 'count')    #'count' muestra el número de observaciones.
                                    #'frequency' muestra el número de observaciones dividida por el ancho del bin.
                                    #'density' normaliza las cuentas tal que el área del histograma es 1.
                                    #'probability' normaliza las cuentas tal que la suma de la altura de las barras es 1.

plt.xlabel(atribute) #Texto en el eje x.
plt.ylabel('Cuentas')              #Texto en el eje y.
plt.title('Histograma')             #Título del gráfico.
plt.xticks(rotation=45, fontsize=8)
plt.show()

In [None]:
# Ahora vamos a mostrar el histograma de todos los atributos

num_bins = 30
for column in df.columns:
    if df[column].dtype != 'object':
        plt.figure(figsize=(6,6))
        sns.histplot(data     = df,
             x        =column,
             bins     = num_bins,
             color    = 'red',
             fill     = True,
             stat     = 'count')    #'count' muestra el número de observaciones.
                                    #'frequency' muestra el número de observaciones dividida por el ancho del bin.
                                    #'density' normaliza las cuentas tal que el área del histograma es 1.
                                    #'probability' normaliza las cuentas tal que la suma de la altura de las barras es 1.

        plt.xlabel(column) #Texto en el eje x.
        plt.ylabel('Cuentas')              #Texto en el eje y.
        plt.title('Histograma')             #Título del gráfico.

### **2.3 Análisis Bivariado**

Es una técnica estadística que se aplica a un par de variables (atributos o características) para determinar la relación
empírica entre ellas.

### a. Gráfico de dispersión (scatter plot)

In [None]:
sns.set(style='white')
sns.set_palette('Set2')

g = sns.PairGrid(data=df,diag_sharey=False, corner=False)

g.map_diag(sns.histplot)
g.map_upper(sns.scatterplot)

g.add_legend()
plt.show()

In [None]:
variable_x = 'engine-size'
variable_y = 'city-mpg'

x_values = df[variable_x]
y_values = df[variable_y]

sns.scatterplot(x=x_values, y=y_values)

# Agregar etiquetas a los ejes
plt.xlabel(variable_x)
plt.ylabel(variable_y)

# Agregar un título al gráfico
plt.title('Gráfico de ' + variable_x + ' vs ' + variable_y)

# Mostrar el gráfico
plt.grid(True)
plt.show()

### b. Matriz de correlación

In [None]:
df_numeric = df.select_dtypes(include=[np.number])
plt.figure(figsize=(10, 8))
ax = sns.heatmap(df_numeric.corr(),annot=True,cmap='RdYlGn',fmt='0.2f')

# **Limpieza**

## **2.4 Detección de problemas con el conjunto de datos: valores faltantes, valores erróneos, etc.**

In [None]:
# Detección de duplicados.

df.duplicated().sum()

In [None]:
### Vamos a eliminar las filas duplicadas

df = df.drop_duplicates()

In [None]:
df.duplicated().sum()

In [None]:
# Detección de valores nulos.

df.isna().sum()

In [None]:
# Problemas estructurales

df.info()

## **2.5 Detección de valores atípicos (Outliers)**


In [None]:

def outliers(dx, atributo):
    ax = sns.boxplot(x=dx[atributo])
    plt.show()

    arr1 = dx[atributo].values

    # Encontrar el 1st quartil
    q1 = np.quantile(arr1, 0.25)

    # Encontrar el 3rd quartil
    q3 = np.quantile(arr1, 0.75)

    # Encontrar el 2nd quartil
    med = np.median(arr1)

    # Encontrar el rango inter quartil (iqr)
    iqr = q3-q1

    # Encontrar los bigotes superior e inferior
    upper_bound = q3+(1.5*iqr)
    lower_bound = q1-(1.5*iqr)

    outliers_l = arr1[(arr1 <= lower_bound)]
    outliers_u = arr1[(arr1 >= upper_bound)]
    print('The following are the lower outliers in {} : {}'.format(atributo,outliers_l))
    print('The following are the upper outliers in {} : {}'.format(atributo,outliers_u))

    return outliers_l, outliers_u

In [None]:
for column in df.columns:
    if df[column].dtype != 'object':
        outliers(df, column)

## **2.6 Solución a los problemas encontrados**

In [None]:
# Es recomendable hacer una copia (profunda) del dataframe original antes de modificarlo.

df_clean = df.copy()

In [None]:
df_clean.info()

In [None]:
df_clean.head()

In [None]:
## Vamos a cambiar los tipos de datos de las columnas que son numéricas y que están como objeto
df_clean['normalized-losses'] = df_clean['normalized-losses'].astype(float).fillna(np.nan)
df_clean['bore'] = df_clean['bore'].astype(float)
df_clean['stroke'] = df_clean['stroke'].astype(float)
df_clean['horsepower'] = df_clean['horsepower'].astype(float)
df_clean['peak-rpm'] = df_clean['peak-rpm'].astype(float)
df_clean['city-mpg'] = df_clean['city-mpg'].astype(float)
df_clean['highway-mpg'] = df_clean['highway-mpg'].astype(float)
df_clean['price'] = df_clean['price'].astype(float)
df_clean.info()

In [None]:
df_clean.head(10)

### 3. Manejo de Datos Faltantes y Anómalos

In [None]:
df_clean.isna().sum()

In [None]:
## Porcentaje de nulos por columna
serie_1 = df_clean.isna().sum()
for column in serie_1.index:
    por = 100*serie_1[column]/df_clean.shape[0]
    print(f"El porcentaje de nulos en la columna {column} es: {por:.2f}%")

In [None]:
## ¿Quué pasa si eliminamos todas las filas que tienen al menos un valor nulo?
df_clean = df.dropna()

In [None]:
## ¿De qué tamaño es el nuevo dataframe?
print(df_clean.shape)
## ¿Cuántas filas se eliminaron?
print(f"Se eliminaron {df.shape[0] - df_clean.shape[0]} filas")
## Porcentaje de filas eliminadas
porcentaje = 100*(df.shape[0] - df_clean.shape[0])/df.shape[0]
print(f"El porcentaje de filas eliminadas es: {porcentaje:.2f}%")

In [None]:
## Intentemos otro enfoque
df_clean = df.copy()

In [None]:
### Vamos a eliminar la columna normalized-losses

df_clean = df_clean.drop('normalized-losses', axis=1)

In [None]:
## ¿De qué tamaño es el nuevo dataframe?
print(df_clean.shape)
## ¿Cuántas filas se eliminaron?
print(f"Se eliminaron {df.shape[0] - df_clean.shape[0]} filas")
## Porcentaje de filas eliminadas
porcentaje = 100*(df.shape[0] - df_clean.shape[0])/df.shape[0]
print(f"El porcentaje de filas eliminadas es: {porcentaje:.2f}%")

In [None]:
df_clean.head()

In [None]:
## Vamos a mostrar el porcentaje de nulos por columna

serie_1 = df_clean.isna().sum()

for column in serie_1.index:
    por = 100*serie_1[column]/df_clean.shape[0]
    print(f"La cantidad de nulos en la columna {column} es {serie_1[column]} y el porcentaje es: {por:.2f}%")

In [None]:
## Vamos a eliminar los nulos de la columna price YA QUE ES LA VARIABLE OBJETIVO

df_clean = df_clean.dropna(subset=['price'])

In [None]:
## Vamos a mostrar el porcentaje de nulos por columna

serie_1 = df_clean.isna().sum()

for column in serie_1.index:
    por = 100*serie_1[column]/df_clean.shape[0]
    print(f"La cantidad de nulos en la columna {column} es {serie_1[column]} y el porcentaje es: {por:.2f}%")

In [None]:
df_clean.shape

In [None]:
## Vamos a buscar vehículos con la misma forma de los vehículos que tienen nan en la columna num-of-doors

df_1 = df_clean[df_clean['num-of-doors'].isna()]

df_1.head()

In [None]:
## Vamos a buscar la cantidad de puertas que más se repite para vehículos sedan

df_clean.groupby('body-style')['num-of-doors'].value_counts()


In [None]:
## Vamos a reemplzar los nan en la columna num-of-doors por 'four'

df_clean['num-of-doors'] = df_clean['num-of-doors'].fillna('four')

In [None]:
## Vamos a mostrar el porcentaje de nulos por columna

serie_1 = df_clean.isna().sum()

for column in serie_1.index:
    por = 100*serie_1[column]/df_clean.shape[0]
    print(f"La cantidad de nulos en la columna {column} es {serie_1[column]} y el porcentaje es: {por:.2f}%")

## **2.7 Preparación**