# ANÁLISIS DEL DATASET "DIAMONDS".

## 1-CARGA DE DATOS Y LIBRERÍAS DE PYTHON.

### 1.1-CARGA DE LIBRERÍAS DE PYTHON.

In [1]:
import numpy as np
import pandas as pd
import seaborn as sns
import plotly.express as px

### 1.2-CARGA DE DATOS.

In [2]:
# Archivo fuente de datos
file = './Data/diamonds.csv'

# Carga del archivo fuente y generación del DataFrame
df = pd.read_csv(file)

## 2-ANÁLISIS PRELIMINAR DEL DATAFRAME.

### 2.1-ANÁLISIS DE LA ESTRUCTURA DEL DATAFRAME.

#### 2.1.1-VISUALIZACIÓN PREVIA DEL DATAFRAME.

In [None]:
df.head(5)

In [None]:
df[25000::5]

In [None]:
df.tail(5)

Como se puede observar en las tablas superiores, el DataFrame cargado consta de 53.940 filas y 10 columnas, de las cuales, 7 columnas son numéricas y 3 columnas son categóricas, en principio.

#### 2.1.2-ANÁLISIS DE LA INCONSISTENCIA DE DATOS.

In [None]:
df.info()

Al ampliar la información del DataFrame, como se puede apreciar en la tabla superior, se indica que el DataFrame tiene 53.940 filas. Sin embargo, existe una única columna (la 4 - 'depth') en cuyas observaciones no existe ningún valor nulo. En el resto de columnas, se han detectado valores nulos: existen columnas con 1 valor nulo ('carat', 'y', 'z'), 2 valores nulos ('color', 'clarity', 'table' y 'price') y 3 valores nulos ('cut').
<p>Por otra parte, algunas columnas no tienen el tipo de dato que se esperaba a priori. Por ejemplo, las columnas 'price' y 'x', en principio, se esperaban que contuvieran valores numéricos y se han detectado valores de tipo 'object', por lo que los valores de las columnas indicadas pueden haberse cargado como tipo 'string'.
<P>Por todo ello, nos hace pensar que existen valores inconsistentes en las columnas mencionadas que hay que tratar adecuadamente. 
<p>En principio, las cantidades de estas inconsitencias encontradas no son muy numerosas. Dada la cantidad total de las filas del DataFrame, las inconsistencias no parecen tener un peso importante en el conjunto del mismo, y una de las opciones podría ser eliminar directamente las filas afectadas. No obstante, es preferible evitar su eliminación (afín de no perder información) y las filas/columnas afectadas se van a tratar adecuadamente. Para ello, a continuación se procede al análisis de cada columna afectada.

In [None]:
""" print(df[df['carat'].isnull()])
print(df[df['cut'].isnull()])
print(df[df['color'].isnull()])
print(df[df['clarity'].isnull()])
print(df[df['table'].isnull()])
print(df[df['price'].isnull()])
print(df[df['x'].isnull()])
print(df[df['y'].isnull()])
print(df[df['z'].isnull()])
df[df['depth'].isnull()] """

##### 2.1.2.1-ANÁLISIS POR COLUMNA: 'carat'.

In [None]:
# Se imprimen los valores únicos de la columna. Se aprecia que el último valor obtenido es de tipo 'NaN
print(df['carat'].unique())

A parte de los valores NaN, no se aprecia ningún otro valor inconsistente en la columna.

In [None]:
# Se imprime la línea que contiene el valor 'NaN' en la columna 'carat'
print(df[df['carat'].isnull()])

##### 2.1.2.2-ANÁLISIS POR COLUMNA: 'cut'.

In [None]:
# Se imprimen los valores únicos de la columna.
print(df['cut'].unique())

Se observa que, además de los valores NaN, también aparece un valor (al menos uno) '?' que no se correspondería con un valor esperado en la columna 'cut'. Dado que, en un próximo apartado, se van a tratar en bloque todos los valores NaN, en esta columna, al tratarse de un caso particular, se va a sustituir el valor '?' por NaN

In [None]:
filas_con_interrogacion = df[df['cut'].str.contains(r'\?', na=False)]
filas_con_interrogacion

In [12]:
# Se reemplazan los carácteres '?' con NaN en la columna
df['cut'] = df['cut'].replace('?', np.nan)

In [None]:
# Se imprimen las líneas que contienen el valor 'NaN' en la columna 'cut'
print(df[df['cut'].isnull()])


##### 2.1.2.3-ANÁLISIS POR COLUMNA: 'color'.

In [None]:
# Se imprimen los valores únicos de la columna.
print(df['color'].unique())

In [None]:
filas_con_interrogacion = df[df['color'].str.contains(r'\?', na=False)]
filas_con_interrogacion

In [None]:
filas_vacias = df[df['color'].str.contains(r'', na=False)]
filas_vacias

In [None]:
# Se imprimen las líneas que contienen el valor 'NaN' en la columna 'color'
print(df[df['color'].isnull()])


En este caso, no existen valores NaN. Sin embargo, al igual que en la columna anterior, sí existen valores '?' que son valores no esperados en esta columna.

##### 2.1.2.4-ANÁLISIS POR COLUMNA: 'clarity'.

In [None]:
# Se imprimen los valores únicos de la columna.
print(df['clarity'].unique())

In [None]:
# Se imprimen las líneas que contienen el valor 'NaN' en la columna 'clarity'
print(df[df['clarity'].isnull()])


##### 2.1.2.5-ANÁLISIS POR COLUMNA: 'table'.

In [None]:
# Se imprimen los valores únicos de la columna.
print(df['table'].unique())

In [None]:
# Se imprimen las líneas que contienen el valor 'NaN' en la columna.
print(df[df['table'].isnull()])


##### 2.1.2.6-ANÁLISIS POR COLUMNA: 'price'.

In [None]:
# Se imprimen los valores únicos de la columna.
print(df['price'].unique())

In [None]:
filas_valor_cero = df[df['price'].str.startswith('0', na=False)]
filas_valor_cero

In [None]:
# Se imprimen las líneas que contienen el valor 'NaN' en la columna.
print(df[df['price'].isnull()])


##### 2.1.2.7-ANÁLISIS POR COLUMNA: 'x'.

In [None]:
# Se imprimen los valores únicos de la columna.
print(df['x'].unique())

In [None]:
filas_valor_cero = df[df['x'].str.startswith('0', na=False)]
filas_valor_cero

In [None]:
# Se imprimen las líneas que contienen el valor 'NaN' en la columna.
print(df[df['x'].isnull()])


##### 2.1.2.8-ANÁLISIS POR COLUMNA: 'y'.

In [None]:
# Se imprimen los valores únicos de la columna.
print(df['y'].unique())

In [None]:
filas_valor_cero = df[df['y']==0]
filas_valor_cero

In [None]:
# Se imprimen las líneas que contienen el valor 'NaN' en la columna.
print(df[df['y'].isnull()])


##### 2.1.2.9-ANÁLISIS POR COLUMNA: 'z'.

In [None]:
# Se imprimen los valores únicos de la columna.
print(df['z'].unique())

In [None]:
filas_valor_cero = df[df['z']==0]
filas_valor_cero

In [None]:
# Se imprimen las líneas que contienen el valor 'NaN' en la columna.
print(df[df['z'].isnull()])


##### 2.1.2.10-ANÁLISIS POR COLUMNA: 'depth'.

In [None]:
# Se imprimen los valores únicos de la columna.
print(df['depth'].unique())

In [None]:
# Se imprimen las líneas que contienen el valor 'NaN' en la columna.
print(df[df['depth'].isnull()])


#### 2.1.3-LIMPIEZA Y TRATAMIENTO DE DATOS NULOS O INCONSISTENTES.

Se va a sustituir el valor 'NaN' por la mediana de la columna.

In [None]:
# Se obtienen las columnas con, al menos, un valor NaN
columnas_nan = df.columns[df.isnull().any()]
print("Columnas con valores NaN:", columnas_nan)

# Reemplazar NaN con la mediana para columnas numéricas y la moda para categóricas
for columna in columnas_nan:
    if df[columna].dtype in ['float64', 'int64']:  # Si la columna es numérica
        median = df[columna].median()
        df[columna].fillna(median, inplace=True) # Se reemplaza NaN por la mediana
    else:  # Si la columna es categórica o string ('object')
        mode = df[columna].mode().iloc[0]  # Se selecciona la primera moda
        df[columna].fillna(mode, inplace=True) # Se reemplaza NaN por la moda

# Resultado
""" print("\nDataFrame después de reemplazar valores NaN:")
print(df) """
df.info()
