##### Rodrigo Soto
##### 614310


# An√°lisis Exploratorio de Datos con el dataset de diamantes

En este notebook aprender√°s a realizar un an√°lisis exploratorio de datos (EDA) utilizando una base de datos SQLite con informaci√≥n sobre diamantes. Exploraremos tipos de variables, escalas de medici√≥n, estad√≠sticas descriptivas, visualizaciones y transformaciones √∫tiles para preparar los datos para modelos de machine learning.

---

### Conexi√≥n a la base de datos

### ¬øQu√© es Git?

Git es una herramienta que permite gestionar versiones de archivos, especialmente √∫til en proyectos de programaci√≥n. Con Git puedes:

- Guardar cambios progresivos en tu trabajo
- Colaborar con otras personas sin perder el control de versiones
- Descargar (clonar) proyectos p√∫blicos desde plataformas como GitHub

En este notebook usamos `git clone` para copiar un repositorio que contiene bases de datos educativas en formato SQLite.

### ¬øQu√© es SQL?

SQL (Structured Query Language) es un lenguaje utilizado para consultar y manipular bases de datos. Permite extraer, filtrar, combinar y ordenar informaci√≥n de forma estructurada.

En este notebook usamos SQL para obtener datos de una base de datos SQLite. Algunas cl√°usulas clave que utilizamos son:

- `SELECT`: indica qu√© columnas queremos ver
- `FROM`: especifica de qu√© tabla se obtienen los datos
- `JOIN`: combina informaci√≥n de varias tablas relacionadas
- `ON`: define la condici√≥n de uni√≥n entre tablas
- `LIMIT`: restringe la cantidad de filas que se muestran (opcional)

Ejemplo usado:
```sql
SELECT carat, price, cut
FROM Observation
JOIN Cut ON Observation.cut_id = Cut.cut_id

In [42]:
# Clonar el repositorio
!git clone https://github.com/davidjamesknight/SQLite_databases_for_learning_data_science.git

%cd SQLite_databases_for_learning_data_science

# Conectarse a la base de datos e importar librer√≠as

import sqlite3
import pandas as pd

db = sqlite3.connect('diamonds.db')
cursor = db.cursor()

cursor.execute("SELECT name FROM sqlite_master WHERE type='table';")
tablas = cursor.fetchall()

print("Tablas encontradas:")
for tabla in tablas:
    print(tabla[0])

Cloning into 'SQLite_databases_for_learning_data_science'...


remote: Enumerating objects: 39, done.[K
remote: Counting objects: 100% (39/39), done.[K
remote: Compressing objects: 100% (23/23), done.[K
remote: Total 39 (delta 21), reused 34 (delta 16), pack-reused 0 (from 0)[K
Receiving objects: 100% (39/39), 2.10 MiB | 6.82 MiB/s, done.
Resolving deltas: 100% (21/21), done.
/workspaces/exploratory-data-analysis-students/SQLite_databases_for_learning_data_science/SQLite_databases_for_learning_data_science
Tablas encontradas:
Observation
Cut
Color
Clarity


In [43]:
# TODORecorrer cada tabla y mostrar sus columnas
for tabla in tablas:
    nombre_tabla = tabla[0]  # Extraer el nombre como cadena
    print(f"\nColumnas en la tabla '{nombre_tabla}':")

    # Usar PRAGMA para obtener informaci√≥n de las columnas
    cursor.execute(f"PRAGMA table_info('{nombre_tabla}');")
    columnas = cursor.fetchall()

    # Mostrar nombre y tipo de cada columna
    for columna in columnas:
        print(f" - {columna[1]} ({columna[2]})")  # columna[1] = nombre, columna[2] = tipo


Columnas en la tabla 'Observation':
 - carat (FLOAT)
 - depth (FLOAT)
 - table (FLOAT)
 - price (BIGINT)
 - x (FLOAT)
 - y (FLOAT)
 - z (FLOAT)
 - cut_id (BIGINT)
 - color_id (BIGINT)
 - clarity_id (BIGINT)

Columnas en la tabla 'Cut':
 - cut_id (BIGINT)
 - cut (TEXT)

Columnas en la tabla 'Color':
 - color_id (BIGINT)
 - color (TEXT)

Columnas en la tabla 'Clarity':
 - clarity_id (BIGINT)
 - clarity (TEXT)


# Generar primer SQL query.

In [44]:
# TODO: Crear la consulta SQL
sql= """
SELECT
    O.carat,
    O.price,
    "O"."table",
    O.x,
    O.y,
    O.z,
    C.cut,
    Co.color,
    Cl.clarity
FROM
    Observation AS O 
JOIN
    Cut AS C
    ON O.cut_id=C.cut_id
JOIN
    color AS Co
    ON O.color_id=Co.color_id
JOIN
    clarity AS Cl
    ON O.clarity_id=Cl.clarity_id


"""

# TODO: Almacenar datos en dataframe (df)

df=pd.read_sql_query(sql,db)
df.head()


Unnamed: 0,carat,price,table,x,y,z,cut,color,clarity
0,0.23,326,55.0,3.95,3.98,2.43,Ideal,E,SI2
1,0.21,326,61.0,3.89,3.84,2.31,Premium,E,SI1
2,0.23,327,65.0,4.05,4.07,2.31,Good,E,VS1
3,0.29,334,58.0,4.2,4.23,2.63,Premium,I,VS2
4,0.31,335,58.0,4.34,4.35,2.75,Good,J,SI2


### Identificar tipos de datos

In [45]:
# TODO: Identifica tipos de datos

df.dtypes

carat      float64
price        int64
table      float64
x          float64
y          float64
z          float64
cut            str
color          str
clarity        str
dtype: object

In [46]:
# TODO: Separa por num√©ricas y categ√≥ricas

numericas = df.select_dtypes(include=['float64', 'int64']).columns.tolist()

categoricas = df.select_dtypes(include=['object']).columns.tolist()

print("Variables numericas: ",numericas)
print("Variables categoricas: ",categoricas)

Variables numericas:  ['carat', 'price', 'table', 'x', 'y', 'z']
Variables categoricas:  ['cut', 'color', 'clarity']



See https://pandas.pydata.org/docs/user_guide/migration-3-strings.html#string-migration-select-dtypes for details on how to write code that works with pandas 2 and 3.



### Escala de medici√≥n de las variables

| Variable         | Tipo de dato | Escala de medici√≥n | Justificaci√≥n |
|------------------|--------------|---------------------|----------------|
| `carat`          | Num√©rica     | Raz√≥n               | Tiene cero absoluto, se puede multiplicar/dividir |
| `price`          | Num√©rica     | Raz√≥n               | Representa valor monetario, cero tiene significado |
| `x`, `y`, `z`     | Num√©rica     | Raz√≥n               | Medidas f√≠sicas, cero indica ausencia |
| `depth`          | Num√©rica     | Intervalo           | Porcentaje relativo, no tiene cero absoluto claro |
| `"table"`        | Num√©rica     | Intervalo           | Porcentaje relativo, no tiene cero absoluto claro |
| `cut`            | Categ√≥rica   | Ordinal             | Tiene orden l√≥gico: Fair < Good < Very Good < Ideal < Premium |
| `color`          | Categ√≥rica   | Ordinal o Nominal           | Escala gemol√≥gica: D (mejor) a J (peor) |
| `clarity`        | Categ√≥rica   | Ordinal o Nominal           | Escala gemol√≥gica: FL > IF > VVS1 > ... > I3 |


### Estad√≠sticas Descriptivas

In [47]:
# TODO: Obten estad√≠sticas desceiptivas por medio del metodo de pandas

df.describe().T

Unnamed: 0,count,mean,std,min,25%,50%,75%,max
carat,53940.0,0.79794,0.474011,0.2,0.4,0.7,1.04,5.01
price,53940.0,3932.799722,3989.439738,326.0,950.0,2401.0,5324.25,18823.0
table,53940.0,57.457184,2.234491,43.0,56.0,57.0,59.0,95.0
x,53940.0,5.731157,1.121761,0.0,4.71,5.7,6.54,10.74
y,53940.0,5.734526,1.142135,0.0,4.72,5.71,6.54,58.9
z,53940.0,3.538734,0.705699,0.0,2.91,3.53,4.04,31.8


In [48]:
# TODO: Obten conteo de valores para cada categor√≠a de las variables catge√≥ricas
for col in categoricas:
    print(df[col].value_counts())

cut
Ideal        21551
Premium      13791
Very Good    12082
Good          4906
Fair          1610
Name: count, dtype: int64
color
G    11292
E     9797
F     9542
H     8304
D     6775
I     5422
J     2808
Name: count, dtype: int64
clarity
SI1     13065
VS2     12258
SI2      9194
VS1      8171
VVS2     5066
VVS1     3655
IF       1790
I1        741
Name: count, dtype: int64


- ¬øQu√© tipo de codificaci√≥n ser√≠a m√°s adecuada para cada variable categ√≥rica?


### Correlaciones entre variables num√©ricoas

In [49]:
# TODO: Crear Matriz de Correlaci√≥n con plotly (s√≥lo la primera vez)
import plotly.figure_factory as ff
cor_matrix = df[numericas].corr().round(2)

# Crear heatmap anotado
fig = ff.create_annotated_heatmap(
    z=cor_matrix.values,
    x=cor_matrix.columns.tolist(),
    y=cor_matrix.index.tolist(),
    colorscale="Plasma"
)
fig.show()

- ¬øQu√© variables parecen tener una relaci√≥n fuerte con el precio?
Carat

### Visualizaciones con plotly

In [None]:
# TODO: Crear Scatter Plot
import plotly.express as px

fig=px.scatter(
    data_frame=df,
    x='carat',
    y='price',
    color='cut',
    hover_data=['color','clarity']
)

fig.show(renderer="notebook")

### Boxplot pot tipo de corte

In [51]:
# TODO: Crear boxplot por tipo de corte

- ¬øQu√© tipo de corte tiene mayor dispersi√≥n en precios?

### Histogramas de variables numericas

In [52]:
# TODO: Histogramas de variables num√©ricas

- ¬øQu√© variables num√©ricas muestran distribuci√≥n sesgada?


### Mapa de calor con correlaciones

### Detecci√≥n de outliers utilizando RIC (IQR)

In [53]:
# TODO: Obtener numero de outliers por variable num√©rica

### An√°lisis de Distribuci√≥n

In [54]:
# TODO: Obtener sesgo y curtosis de variables num√©ricas

### Transformaci√≥n de variables categ√≥ricas

In [55]:
# TODO: Label Encoding con sklearn

El √≥rden l√≥gico de esta columna es Fair < Good < Very Good < Ideal < Premium

In [56]:
# TODO: Label Encoding Manual

In [57]:
# TODO: One-Hot Encoding

In [58]:
# TODO: Target Encoder
import category_encoders as ce

### Escalamiento de Datos

### ¬øQu√© es el escalamiento de datos?

El escalamiento de datos es una t√©cnica que ajusta los valores num√©ricos para que est√©n en rangos comparables. Esto es √∫til cuando usamos algoritmos que son sensibles a las magnitudes de los datos (como regresiones o clustering).

A continuaci√≥n, se explican tres m√©todos comunes:

---

#### üîπ MinMaxScaler

- Ajusta los valores para que est√©n entre un m√≠nimo y un m√°ximo (por defecto, entre 0 y 1).
- F√≥rmula:  
  $$
  X_{\text{escalado}} = \frac{X - X_{\text{min}}}{X_{\text{max}} - X_{\text{min}}}
  $$
- √ötil cuando queremos conservar la forma original de la distribuci√≥n.

---

#### üîπ StandardScaler

- Centra los datos en 0 y los escala para que tengan una desviaci√≥n est√°ndar de 1.
- F√≥rmula:  
  $$
  X_{\text{escalado}} = \frac{X - \mu}{\sigma}
  $$
  donde $\mu$ es la media y $\sigma$ la desviaci√≥n est√°ndar.
- Ideal cuando los datos tienen una distribuci√≥n aproximadamente normal.

---

En resumen: estos m√©todos ayudan a que los datos sean m√°s comparables y √∫tiles para an√°lisis estad√≠sticos o modelos de machine learning.

### ¬øSe pueden combinar distintos escaladores?

S√≠, es v√°lido aplicar diferentes m√©todos de escalamiento a distintas columnas, especialmente cuando:

- Las variables tienen **naturaleza distinta** (por ejemplo, ingresos vs. proporciones).
- Algunas columnas tienen **valores extremos (outliers)** y otras no.
- Quieres conservar la **forma original** de ciertas distribuciones (MinMaxScaler) pero estandarizar otras (StandardScaler).

Ejemplo pr√°ctico:
- Usar `StandardScaler` en columnas como "ingresos" o "edad", que tienen distribuci√≥n normal.
- Usar `MinMaxScaler` en columnas como "porcentaje de cumplimiento" o "calificaciones", que ya est√°n en rangos definidos.

---

### Consideraciones importantes

- Si usas modelos **basados en distancia** (como KNN o clustering), aseg√∫rate de que las escalas no generen sesgos. En ese caso, es mejor que todas las variables est√©n en rangos comparables.
- Para modelos como **√°rboles de decisi√≥n o random forest**, el escalamiento no es necesario, ya que no dependen de magnitudes.

---

En resumen: puedes escalar columnas de forma diferente, pero aseg√∫rate de que tenga sentido para el tipo de an√°lisis o modelo que est√°s usando.

# Pruebas de Hip√≥tesis: Una y Dos Medias

Las **pruebas de hip√≥tesis** nos ayudan a tomar decisiones sobre una poblaci√≥n usando datos de una muestra. En particular, podemos comparar medias para saber si hay diferencias significativas o si los resultados podr√≠an deberse al azar.

## ¬øQu√© es el estad√≠stico t y el valor p?

- **Estad√≠stico t:** Es una medida que compara la diferencia observada entre medias (o entre una media y un valor de referencia) con la variabilidad de los datos. Nos dice cu√°ntas "desviaciones est√°ndar" est√° la diferencia observada respecto a lo que esperar√≠amos por azar.
- **Valor p:** Es la probabilidad de obtener un resultado igual o m√°s extremo que el observado, suponiendo que la hip√≥tesis nula es cierta. Si el valor p es peque√±o (por ejemplo, menor a 0.05), consideramos que la diferencia es significativa.

### F√≥rmulas

**Para una muestra:**

$$
t = \frac{\bar{x} - \mu_0}{s / \sqrt{n}}
$$

donde:

- $\bar{x}$ = media muestral  
- $\mu_0$ = media bajo la hip√≥tesis nula  
- $s$ = desviaci√≥n est√°ndar muestral  
- $n$ = tama√±o de la muestra  

**Para dos muestras independientes:**

$$
t = \frac{\bar{x}_1 - \bar{x}_2}{\sqrt{\frac{s_1^2}{n_1} + \frac{s_2^2}{n_2}}}
$$

donde los sub√≠ndices 1 y 2 corresponden a cada grupo.

---

In [59]:
# TODO: Prueba de hip√≥tesis para una media (t-test de una muestra)


## 2. Prueba de Hip√≥tesis para dos Medias

Se utiliza para comparar si las medias de dos grupos son iguales.

**Ejemplo:**  
¬øEl precio promedio de los diamantes con corte 'Ideal' es igual al de los de corte 'Premium'?

- **Hip√≥tesis nula ($H_0$):** $\mu_1 = \mu_2$
- **Hip√≥tesis alternativa ($H_1$):** $\mu_1 \neq \mu_2$

In [60]:
# TODO: Prueba de hip√≥tesis para dos medias independientes (t-test de dos muestras)