##### Rodrigo Soto
##### 614310


# Análisis Exploratorio de Datos con el dataset de diamantes

En este notebook aprenderás a realizar un análisis exploratorio de datos (EDA) utilizando una base de datos SQLite con información sobre diamantes. Exploraremos tipos de variables, escalas de medición, estadísticas descriptivas, visualizaciones y transformaciones útiles para preparar los datos para modelos de machine learning.

---

### Conexión a la base de datos

### ¿Qué es Git?

Git es una herramienta que permite gestionar versiones de archivos, especialmente útil en proyectos de programación. Con Git puedes:

- Guardar cambios progresivos en tu trabajo
- Colaborar con otras personas sin perder el control de versiones
- Descargar (clonar) proyectos públicos desde plataformas como GitHub

En este notebook usamos `git clone` para copiar un repositorio que contiene bases de datos educativas en formato SQLite.

### ¿Qué es SQL?

SQL (Structured Query Language) es un lenguaje utilizado para consultar y manipular bases de datos. Permite extraer, filtrar, combinar y ordenar información de forma estructurada.

En este notebook usamos SQL para obtener datos de una base de datos SQLite. Algunas cláusulas clave que utilizamos son:

- `SELECT`: indica qué columnas queremos ver
- `FROM`: especifica de qué tabla se obtienen los datos
- `JOIN`: combina información de varias tablas relacionadas
- `ON`: define la condición de unión entre tablas
- `LIMIT`: restringe la cantidad de filas que se muestran (opcional)

Ejemplo usado:
```sql
SELECT carat, price, cut
FROM Observation
JOIN Cut ON Observation.cut_id = Cut.cut_id

In [1]:
# Clonar el repositorio
!git clone https://github.com/davidjamesknight/SQLite_databases_for_learning_data_science.git

%cd SQLite_databases_for_learning_data_science

# Conectarse a la base de datos e importar librerías

import sqlite3
import pandas as pd

db = sqlite3.connect('diamonds.db')
cursor = db.cursor()

cursor.execute("SELECT name FROM sqlite_master WHERE type='table';")
tablas = cursor.fetchall()

print("Tablas encontradas:")
for tabla in tablas:
    print(tabla[0])

fatal: destination path 'SQLite_databases_for_learning_data_science' already exists and is not an empty directory.
/content/SQLite_databases_for_learning_data_science
Tablas encontradas:
Observation
Cut
Color
Clarity


In [2]:
# TODORecorrer cada tabla y mostrar sus columnas
for tabla in tablas:
    nombre_tabla = tabla[0]  # Extraer el nombre como cadena
    print(f"\nColumnas en la tabla '{nombre_tabla}':")

    # Usar PRAGMA para obtener información de las columnas
    cursor.execute(f"PRAGMA table_info('{nombre_tabla}');")
    columnas = cursor.fetchall()

    # Mostrar nombre y tipo de cada columna
    for columna in columnas:
        print(f" - {columna[1]} ({columna[2]})")  # columna[1] = nombre, columna[2] = tipo


Columnas en la tabla 'Observation':
 - carat (FLOAT)
 - depth (FLOAT)
 - table (FLOAT)
 - price (BIGINT)
 - x (FLOAT)
 - y (FLOAT)
 - z (FLOAT)
 - cut_id (BIGINT)
 - color_id (BIGINT)
 - clarity_id (BIGINT)

Columnas en la tabla 'Cut':
 - cut_id (BIGINT)
 - cut (TEXT)

Columnas en la tabla 'Color':
 - color_id (BIGINT)
 - color (TEXT)

Columnas en la tabla 'Clarity':
 - clarity_id (BIGINT)
 - clarity (TEXT)


# Generar primer SQL query.

In [3]:
# TODO: Crear la consulta SQL
sql= """
SELECT
    O.carat,
    O.price,
    "O"."table",
    O.x,
    O.y,
    O.z,
    C.cut,
    Co.color,
    Cl.clarity
FROM
    Observation AS O
JOIN
    Cut AS C
    ON O.cut_id=C.cut_id
JOIN
    color AS Co
    ON O.color_id=Co.color_id
JOIN
    clarity AS Cl
    ON O.clarity_id=Cl.clarity_id


"""

# TODO: Almacenar datos en dataframe (df)

df=pd.read_sql_query(sql,db)
df.head()


Unnamed: 0,carat,price,table,x,y,z,cut,color,clarity
0,0.23,326,55.0,3.95,3.98,2.43,Ideal,E,SI2
1,0.21,326,61.0,3.89,3.84,2.31,Premium,E,SI1
2,0.23,327,65.0,4.05,4.07,2.31,Good,E,VS1
3,0.29,334,58.0,4.2,4.23,2.63,Premium,I,VS2
4,0.31,335,58.0,4.34,4.35,2.75,Good,J,SI2


### Identificar tipos de datos

In [4]:
# TODO: Identifica tipos de datos

df.dtypes

Unnamed: 0,0
carat,float64
price,int64
table,float64
x,float64
y,float64
z,float64
cut,object
color,object
clarity,object


In [5]:
# TODO: Separa por numéricas y categóricas

numericas = df.select_dtypes(include=['float64', 'int64']).columns.tolist()

categoricas = df.select_dtypes(include=['object']).columns.tolist()

print("Variables numericas: ",numericas)
print("Variables categoricas: ",categoricas)

Variables numericas:  ['carat', 'price', 'table', 'x', 'y', 'z']
Variables categoricas:  ['cut', 'color', 'clarity']


### Escala de medición de las variables

| Variable         | Tipo de dato | Escala de medición | Justificación |
|------------------|--------------|---------------------|----------------|
| `carat`          | Numérica     | Razón               | Tiene cero absoluto, se puede multiplicar/dividir |
| `price`          | Numérica     | Razón               | Representa valor monetario, cero tiene significado |
| `x`, `y`, `z`     | Numérica     | Razón               | Medidas físicas, cero indica ausencia |
| `depth`          | Numérica     | Intervalo           | Porcentaje relativo, no tiene cero absoluto claro |
| `"table"`        | Numérica     | Intervalo           | Porcentaje relativo, no tiene cero absoluto claro |
| `cut`            | Categórica   | Ordinal             | Tiene orden lógico: Fair < Good < Very Good < Ideal < Premium |
| `color`          | Categórica   | Ordinal o Nominal           | Escala gemológica: D (mejor) a J (peor) |
| `clarity`        | Categórica   | Ordinal o Nominal           | Escala gemológica: FL > IF > VVS1 > ... > I3 |


### Estadísticas Descriptivas

In [6]:
# TODO: Obten estadísticas desceiptivas por medio del metodo de pandas

df.describe().T

Unnamed: 0,count,mean,std,min,25%,50%,75%,max
carat,53940.0,0.79794,0.474011,0.2,0.4,0.7,1.04,5.01
price,53940.0,3932.799722,3989.439738,326.0,950.0,2401.0,5324.25,18823.0
table,53940.0,57.457184,2.234491,43.0,56.0,57.0,59.0,95.0
x,53940.0,5.731157,1.121761,0.0,4.71,5.7,6.54,10.74
y,53940.0,5.734526,1.142135,0.0,4.72,5.71,6.54,58.9
z,53940.0,3.538734,0.705699,0.0,2.91,3.53,4.04,31.8


In [7]:
# TODO: Obten conteo de valores para cada categoría de las variables catgeóricas
for col in categoricas:
    print(df[col].value_counts())

cut
Ideal        21551
Premium      13791
Very Good    12082
Good          4906
Fair          1610
Name: count, dtype: int64
color
G    11292
E     9797
F     9542
H     8304
D     6775
I     5422
J     2808
Name: count, dtype: int64
clarity
SI1     13065
VS2     12258
SI2      9194
VS1      8171
VVS2     5066
VVS1     3655
IF       1790
I1        741
Name: count, dtype: int64


- ¿Qué tipo de codificación sería más adecuada para cada variable categórica?


### Correlaciones entre variables numéricoas

In [8]:
# TODO: Crear Matriz de Correlación con plotly (sólo la primera vez)
import plotly.figure_factory as ff
cor_matrix = df[numericas].corr().round(2)

# Crear heatmap anotado
fig = ff.create_annotated_heatmap(
    z=cor_matrix.values,
    x=cor_matrix.columns.tolist(),
    y=cor_matrix.index.tolist(),
    colorscale="Plasma"
)
fig.show()

- ¿Qué variables parecen tener una relación fuerte con el precio?
Carat

### Visualizaciones con plotly

In [9]:
# TODO: Crear Scatter Plot
import plotly.express as px

fig=px.scatter(
    data_frame=df,
    x='carat',
    y='price',
    color='cut',
    hover_data=['color','clarity'],
    trendline='ols',
    trendline_scope='overall'
)

fig.show()

### Boxplot pot tipo de corte

In [18]:
# TODO: Crear boxplot por tipo de corte
fig=px.box(
    df,
    x='color',
    y='price',
    color='color',
    category_orders={'color':['D','E','F','G','H','I','J']},
    title='Distribucion de precios por color'
)
fig.show()

fig=px.box(
    df,
    x='cut',
    y='price',
    color='cut',
    category_orders={'cut':['Ideal','Premium','Very Good','Good','Fair']},
    title='Distribucion de precios por corte'
)
fig.show()

fig=px.box(
    df,
    x='clarity',
    y='price',
    color='clarity',
    category_orders={'clarity':['IF','VVS1','VVS2','VS1','VS2','SI1','SI2','I1']},
    title='Distribucion de precios por claridad'
)
fig.show()

- ¿Qué tipo de corte tiene mayor dispersión en precios? J

### Histogramas de variables numericas

In [11]:
# TODO: Histogramas de variables numéricas

Histo1=px.histogram(
    df,
    x='price',

)


- ¿Qué variables numéricas muestran distribución sesgada?


### Mapa de calor con correlaciones

### Detección de outliers utilizando RIC (IQR)

In [27]:
# TODO: Obtener numero de outliers por variable numérica

var = 'price'

Q1 = df[var].quantile(0.25)
Q3 = df[var].quantile(0.75)
IQR = Q3 - Q1

Lower = Q1 - 1.5 * IQR
Upper = Q3 + 1.5 * IQR

outliers = df[(df[var] < Lower) | (df[var] > Upper)]

print(outliers)

print(len(outliers))
print(len(outliers)/len(df)*100,'%')

       carat  price  table     x     y     z        cut color clarity
23820   1.17  11886   57.0  6.82  6.73  4.21      Ideal     F    VVS1
23821   2.08  11886   56.0  8.21  8.10  5.06      Ideal     I     SI2
23822   1.70  11888   58.0  7.65  7.60  4.74    Premium     I     VS2
23823   1.09  11888   55.0  6.59  6.65  4.08      Ideal     F      IF
23824   1.68  11888   55.0  7.79  7.70  4.68      Ideal     E     SI2
...      ...    ...    ...   ...   ...   ...        ...   ...     ...
27745   2.00  18803   57.0  7.95  8.00  5.01  Very Good     H     SI1
27746   2.07  18804   55.0  8.20  8.13  5.11      Ideal     G     SI2
27747   1.51  18806   55.0  7.37  7.41  4.56      Ideal     G      IF
27748   2.00  18818   56.0  7.90  7.97  5.04  Very Good     G     SI1
27749   2.29  18823   60.0  8.50  8.47  5.16    Premium     I     VS2

[3540 rows x 9 columns]
3540
6.562847608453838 %


### Análisis de Distribución

In [28]:
# TODO: Obtener sesgo y curtosis de variables numéricas
from scipy.stats import skew, kurtosis
for col in numericas:
  print(f"{col}: Sesgo={skew(df[col]):.2f},Curtosis={kurtosis(df[col]):.2f}")


### Transformación de variables categóricas

In [14]:
# TODO: Label Encoding con sklearn
from sklearn.preprocessing import LabelEncoder
le =LabelEncoder()
df['color_encoded']=le.fit_transform(df['color'])
df[['color', 'color_encoded']].drop_duplicates().sort_values('color_encoded')


El órden lógico de esta columna es Fair < Good < Very Good < Ideal < Premium

In [15]:
# TODO: Label Encoding Manual
color_order={
    'J': 0, 'I': 1, 'H': 2, 'G': 3, 'F': 4, 'E': 5, 'D': 6
}

df['color_encoded'] = df['color'].map(color_order)
df[['color', 'color_encoded']].drop_duplicates().sort_values('color_encoded')


In [16]:
# TODO: One-Hot Encoding

In [17]:
# TODO: Target Encoder
import category_encoders as ce

ModuleNotFoundError: No module named 'category_encoders'

### Escalamiento de Datos

### ¿Qué es el escalamiento de datos?

El escalamiento de datos es una técnica que ajusta los valores numéricos para que estén en rangos comparables. Esto es útil cuando usamos algoritmos que son sensibles a las magnitudes de los datos (como regresiones o clustering).

A continuación, se explican tres métodos comunes:

---

#### 🔹 MinMaxScaler

- Ajusta los valores para que estén entre un mínimo y un máximo (por defecto, entre 0 y 1).
- Fórmula:  
  $$
  X_{\text{escalado}} = \frac{X - X_{\text{min}}}{X_{\text{max}} - X_{\text{min}}}
  $$
- Útil cuando queremos conservar la forma original de la distribución.

---

#### 🔹 StandardScaler

- Centra los datos en 0 y los escala para que tengan una desviación estándar de 1.
- Fórmula:  
  $$
  X_{\text{escalado}} = \frac{X - \mu}{\sigma}
  $$
  donde $\mu$ es la media y $\sigma$ la desviación estándar.
- Ideal cuando los datos tienen una distribución aproximadamente normal.

---

En resumen: estos métodos ayudan a que los datos sean más comparables y útiles para análisis estadísticos o modelos de machine learning.

### ¿Se pueden combinar distintos escaladores?

Sí, es válido aplicar diferentes métodos de escalamiento a distintas columnas, especialmente cuando:

- Las variables tienen **naturaleza distinta** (por ejemplo, ingresos vs. proporciones).
- Algunas columnas tienen **valores extremos (outliers)** y otras no.
- Quieres conservar la **forma original** de ciertas distribuciones (MinMaxScaler) pero estandarizar otras (StandardScaler).

Ejemplo práctico:
- Usar `StandardScaler` en columnas como "ingresos" o "edad", que tienen distribución normal.
- Usar `MinMaxScaler` en columnas como "porcentaje de cumplimiento" o "calificaciones", que ya están en rangos definidos.

---

### Consideraciones importantes

- Si usas modelos **basados en distancia** (como KNN o clustering), asegúrate de que las escalas no generen sesgos. En ese caso, es mejor que todas las variables estén en rangos comparables.
- Para modelos como **árboles de decisión o random forest**, el escalamiento no es necesario, ya que no dependen de magnitudes.

---

En resumen: puedes escalar columnas de forma diferente, pero asegúrate de que tenga sentido para el tipo de análisis o modelo que estás usando.

# Pruebas de Hipótesis: Una y Dos Medias

Las **pruebas de hipótesis** nos ayudan a tomar decisiones sobre una población usando datos de una muestra. En particular, podemos comparar medias para saber si hay diferencias significativas o si los resultados podrían deberse al azar.

## ¿Qué es el estadístico t y el valor p?

- **Estadístico t:** Es una medida que compara la diferencia observada entre medias (o entre una media y un valor de referencia) con la variabilidad de los datos. Nos dice cuántas "desviaciones estándar" está la diferencia observada respecto a lo que esperaríamos por azar.
- **Valor p:** Es la probabilidad de obtener un resultado igual o más extremo que el observado, suponiendo que la hipótesis nula es cierta. Si el valor p es pequeño (por ejemplo, menor a 0.05), consideramos que la diferencia es significativa.

### Fórmulas

**Para una muestra:**

$$
t = \frac{\bar{x} - \mu_0}{s / \sqrt{n}}
$$

donde:

- $\bar{x}$ = media muestral  
- $\mu_0$ = media bajo la hipótesis nula  
- $s$ = desviación estándar muestral  
- $n$ = tamaño de la muestra  

**Para dos muestras independientes:**

$$
t = \frac{\bar{x}_1 - \bar{x}_2}{\sqrt{\frac{s_1^2}{n_1} + \frac{s_2^2}{n_2}}}
$$

donde los subíndices 1 y 2 corresponden a cada grupo.

---

In [None]:
# TODO: Prueba de hipótesis para una media (t-test de una muestra)


## 2. Prueba de Hipótesis para dos Medias

Se utiliza para comparar si las medias de dos grupos son iguales.

**Ejemplo:**  
¿El precio promedio de los diamantes con corte 'Ideal' es igual al de los de corte 'Premium'?

- **Hipótesis nula ($H_0$):** $\mu_1 = \mu_2$
- **Hipótesis alternativa ($H_1$):** $\mu_1 \neq \mu_2$

In [None]:
# TODO: Prueba de hipótesis para dos medias independientes (t-test de dos muestras)