# 1. Predicción vuelos aéreos


## Descripción General
El dataset **California Housing Prices** es un conjunto de datos que contiene información sobre precios de viviendas en diversas localidades de California y características asociadas a ellas, como aspectos demográficos y geográficos. Fue originalmente extraído del censo de 1990 en Estados Unidos.

## Características del Dataset
El dataset consta de las siguientes columnas:  
- `longitude` y `latitude`: Coordenadas geográficas que indican la ubicación de cada distrito.  
- `housing_median_age`: Mediana de la antigüedad de las viviendas en un distrito.  
- `total_rooms`: Número total de habitaciones en un distrito.  
- `total_bedrooms`: Número total de dormitorios en un distrito.  
- `population`: Población total de un distrito.  
- `households`: Número total de viviendas de un distrito.  
- `median_income`: Mediana del ingreso de un distrito (Decenas de miles de dólares estadounidenses).  
- `median_house_value`: Mediana del valor de las viviendas de un distrito (Unidades de Dólares estadounidenses) **(Variable objetivo)**.  
- `ocean_proximity`: Proximidad al océano, una variable categórica que indica la ubicación relativa de la localidad con respecto a la costa (por ejemplo, "NEAR BAY", "INLAND", etc.).

## Tamaño del Dataset
- **Instancias:** 20,640 registros.  
- **Atributos:** 9 características (8 predictoras y 1 variable objetivo).  

## Objetivo propuesto

Construir modelos que predigan el valor medio de las viviendas (`median_house_value`) con base en las características dadas.  

## Limitaciones
- La información está basada en datos del censo de 1990, lo que puede no ser representativo de las condiciones actuales del mercado de vivienda en California.  
- La variable `median_house_value` está truncada a un máximo de 500,000 dólares, lo que puede limitar los análisis para propiedades de alto valor.  

## Acceso al Dataset
- Disponible [Housing Data Set](https://www.kaggle.com/datasets/camnugent/california-housing-prices).




In [5]:
import sys
import sklearn
import pandas as pd
import matplotlib.pyplot as plt
import numpy as np

In [6]:
housing = pd.read_csv('housing.csv')

In [7]:
housing.head()

Unnamed: 0,longitude,latitude,housing_median_age,total_rooms,total_bedrooms,population,households,median_income,median_house_value,ocean_proximity
0,-122.23,37.88,41.0,880.0,129.0,322.0,126.0,8.3252,452600.0,NEAR BAY
1,-122.22,37.86,21.0,7099.0,1106.0,2401.0,1138.0,8.3014,358500.0,NEAR BAY
2,-122.24,37.85,52.0,1467.0,190.0,496.0,177.0,7.2574,352100.0,NEAR BAY
3,-122.25,37.85,52.0,1274.0,235.0,558.0,219.0,5.6431,341300.0,NEAR BAY
4,-122.25,37.85,52.0,1627.0,280.0,565.0,259.0,3.8462,342200.0,NEAR BAY


In [4]:
housing.shape

(20640, 10)

# 2. Dataset: MNIST (Modified National Institute of Standards and Technology)

## Descripción General
El dataset **MNIST** es un conjunto de datos que contiene imágenes en escala de grises de dígitos escritos a mano, del 0 al 9, y se utiliza comúnmente para construir y evaluar modelos de clasificación supervisada.

El dataset es una versión modificada del conjunto de datos original de NIST y fue diseñado para ser simple de usar, ideal para principiantes y para experimentos rápidos en machine learning y deep learning.

## Características del Dataset
El dataset consta de:  
- 784 características por cada imagen, cada una representada por un valor entre 0 = negro y 255 = blanco (784 = 28x28 pixeles).     
- `Target` : Dígito entre 0 y 9, valor entero **(Variable objetivo)**.

## Tamaño del Dataset
- **Conjunto de entrenamiento:** 60,000 imágenes.  
- **Conjunto de prueba:** 10,000 imágenes. 

## Objetivo propuesto

Construir modelos que predigan el dígito correspondiente a una imagen con base en los valores de sus pixeles.  

## Limitaciones
- **Simplicidad:** Aunque es excelente para principiantes, MNIST no representa los desafíos de datasets más complejos de clasificación de imágenes.  
- **Saturación:** Los modelos más avanzados ya alcanzan un rendimiento cercano al 100% en este dataset, por lo que puede no ser útil para comparar algoritmos modernos.  
## Acceso al Dataset
El dataset puede cargarse fácilmente desde `scikit-learn` usando el módulo `datasets`.



# Lista de data sets ya utilizados

https://www.kaggle.com/datasets/danielpanizzo/wine-quality

En proyectos anteriores  
https://www.kaggle.com/datasets/doaaalsenani/usa-cers-dataset  
https://www.kaggle.com/datasets/fedesoriano/stroke-prediction-dataset/data  
https://www.kaggle.com/datasets/mlg-ulb/creditcardfraud  
https://www.kaggle.com/datasets/achal2703/airbnb-listings-in-la-california-inside-airbnb  
https://www.kaggle.com/code/mikhail1681/walmart-weekly-revenue-prediction  
https://www.kaggle.com/datasets/mathchi/diabetes-data-set  
https://www.kaggle.com/datasets/stephanmatzka/predictive-maintenance-dataset-ai4i-2020/data    
https://www.kaggle.com/datasets/ziya07/immunological-profiling-for-acute-graft-rejection?resource=download    
https://www.kaggle.com/datasets/iammustafatz/diabetes-prediction-dataset/data    
https://www.kaggle.com/datasets/fedesoriano/heart-failure-prediction/data  
https://www.kaggle.com/datasets/ruchikakumbhar/obesity-prediction  
https://www.kaggle.com/datasets/iamsouravbanerjee/heart-attack-prediction-dataset  
https://www.kaggle.com/datasets/malaiarasugraj/global-health-statistics  
https://www.kaggle.com/datasets/denkuznetz/traffic-accident-prediction  
https://www.kaggle.com/code/ahmedezzatibrahem/student-performance-factors  
https://www.kaggle.com/datasets/thedevastator/violent-crime-in-ca  
https://www.kaggle.com/datasets/adilshamim8/student-depression-dataset/data  
https://www.kaggle.com/datasets/valakhorasani/gym-members-exercise-dataset  
https://www.kaggle.com/datasets/sulianova/cardiovascular-disease-dataset?utm_source  
https://www.kaggle.com/datasets/samuelotiattakorah/agriculture-crop-yield  
https://www.kaggle.com/datasets/mrmars1010/banana-quality-dataset?select=banana_quality_dataset.csv  
https://www.kaggle.com/datasets/bhavikjikadara/loan-status-prediction  
https://www.kaggle.com/datasets/rush4ratio/video-game-sales-with-ratings/data?select=Video_Games_Sales_as_at_22_Dec_2016.csv  
https://www.kaggle.com/datasets/prasad22/healthcare-dataset  
https://www.kaggle.com/datasets/ziya07/tourism-resource-management-dataset/  
https://www.kaggle.com/datasets/mosapabdelghany/adult-income-prediction-dataset  
https://www.kaggle.com/datasets/mahdimashayekhi/social-media-vs-productivity?resource=download  
https://www.kaggle.com/datasets/haseebindata/student-performance-predictions  
https://www.kaggle.com/datasets/ahmedshahriarsakib/usa-real-estate-dataset  
https://www.kaggle.com/datasets/suruchiarora/yahoo-finance-dataset-2018-2023  
https://www.kaggle.com/datasets/metawave/vehicle-price-prediction

