<a href="https://colab.research.google.com/github/stefymojica/MACC/blob/main/EDA_01.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# 1. EDA: El Arte de Explorar tus Datos
El Análisis Exploratorio de Datos (EDA) es el primer paso crucial en cualquier proyecto de datos. Es como el trabajo de un detective: antes de resolver el caso, necesitas examinar la escena del crimen, recopilar pistas y entender el contexto.

## El Proceso EDA

1. Define tus Preguntas: ¿Qué quieres descubrir? Tener un objetivo claro guía tu análisis.

2. Conoce tus Datos: ¿Cuántas filas y columnas tienes? ¿Hay datos faltantes?

3. Identifica las Variables: Distingue entre variables numéricas (edad, precio) y categóricas (género, ubicación).

4. Estadística Descriptiva: Calcula resúmenes como promedios, medianas y desviaciones estándar para entender la distribución de tus datos.

5. Visualiza: ¡Un gráfico vale más que mil tablas! Usa histogramas, diagramas de caja y gráficos de dispersión para revelar patrones.

6. Busca Relaciones: Explora cómo interactúan las variables entre sí.

7. Comunica tus Hallazgos: Reporta tus descubrimientos de forma clara y concisa.

## 2. ¡Manos a la Obra! Análisis Exploratorio en Python
Vamos a aplicar lo aprendido analizando un conjunto de datos sobre la diabetes. Usaremos las librerías esenciales para la ciencia de datos en Python.

### Librerías Indispensables
* Pandas: Tu navaja suiza para manipular y analizar datos estructurados (los famosos DataFrame).

* Plotly Express: Una herramienta poderosa para crear gráficos interactivos y atractivos con muy poco código.

* Seaborn y Matplotlib: Otras excelentes librerías para visualización de datos.

Primero, importemos las librerías que vamos a necesitar.

In [2]:
import pandas as pd
import plotly.express as px
import seaborn as sb
import matplotlib.pyplot as plt

### Paso 1: Cargar los Datos
Cargaremos los datos directamente desde un repositorio en GitHub. El archivo está en formato CSV (valores separados por comas).

In [3]:
# URL del conjunto de datos
url = "https://raw.githubusercontent.com/Fabian830348/Bases_Datos/master/diabetes.csv"

# Leer el archivo CSV y cargarlo en un DataFrame de pandas
diabetes = pd.read_csv(url)

### Paso 2: Exploración Inicial
Ahora que tenemos los datos, echemos un primer vistazo.

Ver las primeras y últimas filas

Esto nos da una idea rápida de la estructura y los valores del DataFrame.

In [4]:
# Muestra las primeras 5 filas
diabetes.head()

Unnamed: 0,Pregnancies,Glucose,BloodPressure,SkinThickness,Insulin,BMI,DiabetesPedigreeFunction,Age,Outcome
0,6,148,72,35,0,33.6,0.627,50,1
1,1,85,66,29,0,26.6,0.351,31,0
2,8,183,64,0,0,23.3,0.672,32,1
3,1,89,66,23,94,28.1,0.167,21,0
4,0,137,40,35,168,43.1,2.288,33,1


In [5]:
# Muestra las últimas 5 filas
diabetes.tail()

Unnamed: 0,Pregnancies,Glucose,BloodPressure,SkinThickness,Insulin,BMI,DiabetesPedigreeFunction,Age,Outcome
763,10,101,76,48,180,32.9,0.171,63,0
764,2,122,70,27,0,36.8,0.34,27,0
765,5,121,72,23,112,26.2,0.245,30,0
766,1,126,60,0,0,30.1,0.349,47,1
767,1,93,70,31,0,30.4,0.315,23,0


#### Dimensión de los datos

¿Cuántos registros (filas) y variables (columnas) tenemos?

In [6]:
print(f"El conjunto de datos tiene {diabetes.shape[0]} filas y {diabetes.shape[1]} columnas.")

El conjunto de datos tiene 768 filas y 9 columnas.


### Información general del DataFrame

La función .info() es extremadamente útil. Nos da un resumen completo: el número de entradas, la cantidad de valores no nulos por columna y el tipo de dato de cada variable. Esto es clave para detectar datos faltantes.

In [7]:
diabetes.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 768 entries, 0 to 767
Data columns (total 9 columns):
 #   Column                    Non-Null Count  Dtype  
---  ------                    --------------  -----  
 0   Pregnancies               768 non-null    int64  
 1   Glucose                   768 non-null    int64  
 2   BloodPressure             768 non-null    int64  
 3   SkinThickness             768 non-null    int64  
 4   Insulin                   768 non-null    int64  
 5   BMI                       768 non-null    float64
 6   DiabetesPedigreeFunction  768 non-null    float64
 7   Age                       768 non-null    int64  
 8   Outcome                   768 non-null    int64  
dtypes: float64(2), int64(7)
memory usage: 54.1 KB


### Resumen estadístico

La función .describe() nos proporciona estadísticas descriptivas clave para cada variable numérica, como la media, la mediana (50%), la desviación estándar, y los valores mínimo y máximo.



In [8]:
diabetes.describe()

Unnamed: 0,Pregnancies,Glucose,BloodPressure,SkinThickness,Insulin,BMI,DiabetesPedigreeFunction,Age,Outcome
count,768.0,768.0,768.0,768.0,768.0,768.0,768.0,768.0,768.0
mean,3.845052,120.894531,69.105469,20.536458,79.799479,31.992578,0.471876,33.240885,0.348958
std,3.369578,31.972618,19.355807,15.952218,115.244002,7.88416,0.331329,11.760232,0.476951
min,0.0,0.0,0.0,0.0,0.0,0.0,0.078,21.0,0.0
25%,1.0,99.0,62.0,0.0,0.0,27.3,0.24375,24.0,0.0
50%,3.0,117.0,72.0,23.0,30.5,32.0,0.3725,29.0,0.0
75%,6.0,140.25,80.0,32.0,127.25,36.6,0.62625,41.0,1.0
max,17.0,199.0,122.0,99.0,846.0,67.1,2.42,81.0,1.0


# Contar las ocurrencias de cada categoría en 'Outcome'
freq_outcome = diabetes["Outcome"].value_counts()
print(freq_outcome)

# Crear un gráfico de barras interactivo
fig = px.bar(freq_outcome,
             x=freq_outcome.index,
             y=freq_outcome.values,
             title="Distribución de Pacientes con y sin Diabetes",
             labels={'x':'Diagnóstico (0 = No, 1 = Sí)', 'y':'Cantidad de Pacientes'},
             color=freq_outcome.index,
             text_auto=True)
fig.show()

In [9]:
# Contar las ocurrencias de cada categoría en 'Outcome'
freq_outcome = diabetes["Outcome"].value_counts()
print(freq_outcome)

# Crear un gráfico de barras interactivo
fig = px.bar(freq_outcome,
             x=freq_outcome.index,
             y=freq_outcome.values,
             title="Distribución de Pacientes con y sin Diabetes",
             labels={'x':'Diagnóstico (0 = No, 1 = Sí)', 'y':'Cantidad de Pacientes'},
             color=freq_outcome.index,
             text_auto=True)
fig.update_layout(coloraxis_showscale=False)
fig.show()

Outcome
0    500
1    268
Name: count, dtype: int64


### Histograma: Distribución de una Variable Numérica
Veamos cómo se distribuye la presión arterial (BloodPressure) en nuestros pacientes.

In [10]:
# Crear un histograma interactivo para la presión arterial
fig = px.histogram(diabetes,
                   x="BloodPressure",
                   nbins=30,
                   title="Distribución de la Presión Arterial",
                   marginal="box") # Añade un boxplot en el margen
fig.show()

### Boxplot: Comparando Distribuciones
Los diagramas de caja son excelentes para comparar la distribución de una variable numérica a través de diferentes categorías. Comparemos la edad (Age) de los pacientes con y sin diabetes.

In [11]:
# Crear un boxplot para comparar la edad por diagnóstico
fig = px.box(diabetes,
             x="Outcome",
             y="Age",
             color="Outcome",
             title="Comparación de Edad por Diagnóstico de Diabetes",
             labels={"Outcome": "Diagnóstico (0 = No, 1 = Sí)", "Age": "Edad"})
fig.show()

### Diagrama de Dispersión: Relación entre dos Variables
Exploremos si existe una relación entre el nivel de glucosa (Glucose) y el índice de masa corporal (BMI), y veamos si el diagnóstico (Outcome) influye.

In [12]:
# Crear un diagrama de dispersión interactivo
fig = px.scatter(diabetes,
                 x="Glucose",
                 y="BMI",
                 color="Outcome",  # Colorea los puntos según el diagnóstico
                 title="Relación entre Glucosa y BMI",
                 labels={"Glucose": "Nivel de Glucosa", "BMI": "Índice de Masa Corporal"},
                 hover_data=['Age']) # Muestra la edad al pasar el cursor
fig.update_layout(coloraxis_showscale=False)
fig.show()

## 3. Manipulación de Datos con Pandas
Pandas no solo sirve para explorar, sino también para transformar tus datos.

Agrupación de Datos con groupby()
Una de las operaciones más potentes es groupby(). Nos permite dividir los datos en grupos basados en alguna categoría y aplicar una función a cada grupo.

Por ejemplo, calculemos las estadísticas descriptivas de la glucosa para cada grupo de Outcome.

In [13]:
# Agrupar por 'Outcome' y obtener estadísticas de 'Glucose'
stats_glucosa = diabetes.groupby("Outcome")["Glucose"].describe()
print(stats_glucosa)

         count        mean        std  min    25%    50%    75%    max
Outcome                                                               
0        500.0  109.980000  26.141200  0.0   93.0  107.0  125.0  197.0
1        268.0  141.257463  31.939622  0.0  119.0  140.0  167.0  199.0


## 5. Ejercicio Práctico
¡Ahora es tu turno! Aplica lo que has aprendido con un nuevo conjunto de datos sobre apartamentos en Medellín.

Carga los datos:

```python
url_aptos = "https://raw.githubusercontent.com/Fabian830348/Bases_Datos/master/APARTAMENTOS.csv"
aptos = pd.read_csv(url_aptos)
```


### Exploración:

* ¿Cuál es el tamaño de los datos?

Usa head(), info() y describe() para una exploración inicial.

* ¿Hay alguna columna que consideres inútil? Si es así, elimínala con aptos.drop('nombre_columna', axis=1).

### Ingeniería de Características:

* Crea una nueva variable precio_por_mt2 dividiendo el precio entre los mt2.

### Visualización:

* Crea un gráfico de barras para la variable ubicacion.

* Analiza la distribución de la variable precio con un histograma.

* Usa el siguiente código para crear un boxplot que compare el precio por ubicación. ¿Qué conclusiones puedes sacar?

```python
px.box(aptos,
    y="precio",
    x="ubicacion",
    color="ubicacion",
    title="Distribución de Precios por Ubicación")
```



In [14]:
url_aptos = "https://raw.githubusercontent.com/Fabian830348/Bases_Datos/master/APARTAMENTOS.csv"
aptos = pd.read_csv(url_aptos)

In [15]:
aptos.head()

Unnamed: 0.1,Unnamed: 0,precio,mt2,ubicacion,estrato,alcobas,banos,balcon,parqueadero,administracion,avaluo,terminado
0,1,79.0,43.16,norte,3,3,1,si,si,0.05,14.923002,no
1,2,93.0,56.92,norte,2,2,1,si,si,0.069,27.0,si
2,3,100.0,66.4,norte,3,2,2,no,no,0.0,15.738427,no
3,4,123.0,61.85,norte,2,3,2,si,si,0.13,27.0,no
4,5,135.0,89.8,norte,4,3,2,si,no,0.0,39.567,si


In [16]:
aptos = aptos.drop('Unnamed: 0',axis=1)
aptos.head()

Unnamed: 0,precio,mt2,ubicacion,estrato,alcobas,banos,balcon,parqueadero,administracion,avaluo,terminado
0,79.0,43.16,norte,3,3,1,si,si,0.05,14.923002,no
1,93.0,56.92,norte,2,2,1,si,si,0.069,27.0,si
2,100.0,66.4,norte,3,2,2,no,no,0.0,15.738427,no
3,123.0,61.85,norte,2,3,2,si,si,0.13,27.0,no
4,135.0,89.8,norte,4,3,2,si,no,0.0,39.567,si


In [17]:
aptos.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 694 entries, 0 to 693
Data columns (total 11 columns):
 #   Column          Non-Null Count  Dtype  
---  ------          --------------  -----  
 0   precio          694 non-null    float64
 1   mt2             694 non-null    float64
 2   ubicacion       694 non-null    object 
 3   estrato         694 non-null    int64  
 4   alcobas         694 non-null    int64  
 5   banos           694 non-null    int64  
 6   balcon          694 non-null    object 
 7   parqueadero     694 non-null    object 
 8   administracion  694 non-null    float64
 9   avaluo          694 non-null    float64
 10  terminado       694 non-null    object 
dtypes: float64(4), int64(3), object(4)
memory usage: 59.8+ KB


In [18]:
aptos.describe()

Unnamed: 0,precio,mt2,estrato,alcobas,banos,administracion,avaluo
count,694.0,694.0,694.0,694.0,694.0,694.0,694.0
mean,317.762739,120.943818,4.651297,2.910663,2.289625,0.263556,182.636593
std,247.614914,74.695493,1.208205,0.763962,0.795718,0.251586,169.082384
min,25.0,26.0,2.0,1.0,1.0,0.0,0.149
25%,160.0,71.0,4.0,3.0,2.0,0.09,73.0
50%,245.0,97.5,5.0,3.0,2.0,0.201,131.4315
75%,380.0,141.75,6.0,3.0,3.0,0.375,234.051
max,1700.0,500.0,6.0,14.0,6.0,2.28,1540.62


count → Número de registros (694 apartamentos analizados).
mean → Promedio de la columna.
std → Desviación estándar (qué tanto varían los valores respecto al promedio).
min → Valor mínimo.
25% → Percentil 25 (el 25% de los datos está por debajo de este valor).
50% → Mediana (la mitad de los datos está por debajo y la otra mitad por encima).
75% → Percentil 75 (el 75% de los datos está por debajo de este valor).
max → Valor máximo.

In [19]:
precio_por_mt2  = aptos['precio']/aptos['mt2']
aptos['precio_por_mt2'] = precio_por_mt2
aptos.head()

Unnamed: 0,precio,mt2,ubicacion,estrato,alcobas,banos,balcon,parqueadero,administracion,avaluo,terminado,precio_por_mt2
0,79.0,43.16,norte,3,3,1,si,si,0.05,14.923002,no,1.830399
1,93.0,56.92,norte,2,2,1,si,si,0.069,27.0,si,1.633872
2,100.0,66.4,norte,3,2,2,no,no,0.0,15.738427,no,1.506024
3,123.0,61.85,norte,2,3,2,si,si,0.13,27.0,no,1.988682
4,135.0,89.8,norte,4,3,2,si,no,0.0,39.567,si,1.503341


In [20]:
freq_ubicacion = aptos["ubicacion"].value_counts()
print(freq_ubicacion)

ubicacion
poblado           268
aburra sur        169
laureles           73
occidente          69
belen guayabal     67
centro             38
norte              10
Name: count, dtype: int64


In [21]:
#Crea un gráfico de barras para la variable ubicacion.
fig = px.bar(freq_ubicacion,
             x=freq_ubicacion.index,
             y=freq_ubicacion.values,
             title="Distribucion de apartamentos por Ubicacion en Medellin",
             labels={'x':'Ubicacion', 'y':'Cantidad de apartamentos'},
             color=freq_ubicacion.index,
             text_auto=True)
fig.update_layout(coloraxis_showscale=False)
fig.show()

In [22]:
fig = px.histogram(aptos,
                   x="precio",
                   nbins=30,
                   title="Distribucion del precio",
                   marginal="box")
fig.show()

- La mayoria de los apartamentos se encuentran entre 100 y 400 millones
- EL pico mas alto es de 200, Se podria decir que el rango mas frecuente es de 200 millones
- La grafica muestra que hay pocos apartamentos con precios que rondan desde los 700 en adelante
    - Hay puntos alejados al lado derecho de la grafica

In [23]:
px.box(aptos,
    y="precio",
    x="ubicacion",
    color="ubicacion",
    title="Distribución de Precios por Ubicación")

- Hay varios outliers extremos que se muestran en los datos del Poblado


Eje X (horizontal): ubicaciones (norte, occidente, poblado, etc.).
Eje Y (vertical): precio.
Cada caja:
Parte inferior = Q1 (25% de los precios están por debajo de este valor).
Línea en el medio = mediana (50% de los precios están por debajo).
Parte superior = Q3 (75% de los precios están por debajo).
Bigotes: hasta dónde llegan los precios típicos de la zona.
Puntos aislados: precios atípicos (mucho más altos o bajos que la mayoría).
Si la caja es alta → mucha variabilidad de precios en esa zona.
Si la caja es baja → precios más homogéneos.
Si la mediana está muy arriba → la zona es más cara que otras.

Los “bigotes” (fences) marcan hasta dónde llegan los datos sin ser considerados atípicos.