# Exploracion Bases De Datos

## Cats - Dogs (Audios)
- **Fuente**: [Audio Cats and Dogs - Kaggle](https://www.kaggle.com/datasets/mmoreaux/audio-cats-and-dogs)
- **Tipo De Datos**: Esta es una base de datos **secundaria**, ya que la información fue recopilada por otras personas. Se trata de datos de acceso público que no fueron recolectados específicamente con el propósito de realizar un análisis.
    - Los datos costan de audios de gatos y perros en formato .wav de 16KHz, duracion variable y peso variable.

A continuacion el calculo de las caracteristicas basicas.


In [1]:
import os

# Ruta de la carpeta
folder_path = "cats_dogs"

# Listas para almacenar los nombres de los archivos
all_files = []
cat_files = []
dog_files = []

# Recorremos todos los archivos de la carpeta
for file in os.listdir(folder_path):
    if os.path.isfile(os.path.join(folder_path, file)):  # verificamos que sea un archivo
        all_files.append(file)
        if "cat" in file.lower():   # buscar 'cat' sin importar mayúsculas
            cat_files.append(file)
        elif "dog" in file.lower(): # buscar 'dog' sin importar mayúsculas
            dog_files.append(file)

# Resultados
print("Cantidad total de archivos:", len(all_files))
print("Cantidad de archivos para 'cat':", len(cat_files))
print("Cantidad de archivos para 'dog':", len(dog_files))


Cantidad total de archivos: 277
Cantidad de archivos para 'cat': 164
Cantidad de archivos para 'dog': 113


- **Caracteristicas Basicas**
    - Cantidad **total** de archivos: 277
    - Cantidad de archivos para **'cat'**: 164
    - Cantidad de archivos para **'dog'**: 113
- **Posibles Aplicaciones**: Clasificación de sonidos, Reconocimiento de animales en ambientes reales, Detección temprana en dispositivos IoT (ej. Alexa)


# Rayos X Neumonia (Imagenes)

- **Fuente**: [Chest X-Ray Images (Pneumonia) - Kaggle](https://www.kaggle.com/code/shyambv/starter-chest-x-ray-images-pneumonia-0f43d8bd-7)
- **Tipo De Datos**: Esta es una base de datos **secundaria**, ya que la información fue recopilada por otras personas. Se trata de datos de acceso público que no fueron recolectados específicamente con el propósito de realizar un análisis.
    - Los datos costan de imagenes de rayos x de personas con y sin neumonia, el formato de las imagenes es jpeg, con dimensiones variables y peso variable.

A continuacion el calculo de las caracteristicas basicas.

In [5]:
# Rutas de las carpetas
train_path = "chest_xray/train"
normal_path = os.path.join(train_path, "NORMAL")
pneumonia_path = os.path.join(train_path, "PNEUMONIA")

# Función para contar imágenes en una carpeta
def contar_imagenes(carpeta):
    return len([f for f in os.listdir(carpeta) if os.path.isfile(os.path.join(carpeta, f))])

# Contar imágenes
normal_count = contar_imagenes(normal_path)
pneumonia_count = contar_imagenes(pneumonia_path)

# Resultados
print("Cantidad total de imágenes:", normal_count + pneumonia_count)
print("Cantidad de imágenes de personas NORMAL:", normal_count)
print("Cantidad de imágenes de personas con PNEUMONIA:", pneumonia_count)

Cantidad total de imágenes: 5216
Cantidad de imágenes de personas NORMAL: 1341
Cantidad de imágenes de personas con PNEUMONIA: 3875


- **Caracteristicas Basicas**
    - Cantidad total de imágenes: 5216
    - Cantidad de imágenes de personas **NORMAL**: 1341
    - Cantidad de imágenes de personas con **PNEUMONIA**: 3875
- **Posibles Aplicaciones**: Diagnóstico asistido por IA, Detección temprana y triage, Educación médica

## Prediccion De Ingresos

- **Fuente**: [Adult Income Prediction Dataset - Kaggle](https://www.kaggle.com/datasets/mosapabdelghany/adult-income-prediction-dataset)
- **Tipo De Datos**: Esta es una base de datos **secundaria**, ya que la información fue recopilada por otras personas. Se trata de datos de acceso público que fueron recolectados específicamente con el propósito de realizar un análisis estadistico o censal.
    - Los datos costan de una tabla con informacion sobre personas y sus ingresos.
- **Posibles Aplicaciones**: Detección de sesgos, Estudios sociodemográficos, Análisis de desigualdad.

A continuacion el calculo de las caracteristicas basicas.

In [6]:
import pandas as pd

# --- Función para mostrar resumen de datos de DataFrames ---
def resumen(nombre, df):
    print(f"\n===== {nombre} =====")
    print(f"Cantidad de filas: {df.shape[0]}")
    print(f"Cantidad de columnas: {df.shape[1]}")
    print("\nTipos de datos por columna:")
    print(df.dtypes)
    print("\n--- Primeras filas ---")
    print(df.head())

In [8]:

# Los nombres de las columnas según la documentación del dataset
column_names = ['age', 'workclass', 'fnlwgt', 'education', 'education-num', 'marital-status', 'occupation', 'relationship', 'race', 'sex', 'capital-gain', 'capital-loss', 'hours-per-week', 'native-country', 'income']

df_adult = pd.read_csv('./income/adult.csv', header=None, names=column_names, skipinitialspace=True)

resumen("Ingresos De Adultos", df_adult)


===== Ingresos De Adultos =====
Cantidad de filas: 32562
Cantidad de columnas: 15

Tipos de datos por columna:
age               object
workclass         object
fnlwgt            object
education         object
education-num     object
marital-status    object
occupation        object
relationship      object
race              object
sex               object
capital-gain      object
capital-loss      object
hours-per-week    object
native-country    object
income            object
dtype: object

--- Primeras filas ---
   age  workclass  fnlwgt     education  education-num  marital-status  \
0  age  workclass  fnlwgt     education  education.num  marital.status   
1   90          ?   77053       HS-grad              9         Widowed   
2   82    Private  132870       HS-grad              9         Widowed   
3   66          ?  186061  Some-college             10         Widowed   
4   54    Private  140359       7th-8th              4        Divorced   

          occupation   relatio

# Ventas Shopify (Tabular)

- **Fuente**: Empresa privada de venta de ropa y otros.
- **Tipo De Datos**: Esta es una base de datos **Primaria**, ya que la información fue recopilada directamente de la actividad de la tienda, pero no fueron generados con el fin de ser analizados.
    - Los datos costan de tres tablas clientes (xlsx), productos (xlsx) y ordenes (csv)
- **Posibles Aplicaciones**: Segmentacion de clientes, campañas o promociones de marketing, analisis de picos en ventas.

A continuacion el calculo de las caracteristicas basicas y atributos.

In [None]:
# --- Rutas de los archivos ---
clientes_file = "ventas/clientes.xlsx"
productos_file = "ventas/productos.xlsx"
orders_file = "ventas/Orders.csv"

### Informacion Tabla Clientes

In [12]:
clientes_df = pd.read_excel(clientes_file)

resumen("Clientes", clientes_df)


===== Clientes =====
Cantidad de filas: 333051
Cantidad de columnas: 38

Tipos de datos por columna:
ID                                 int64
Language                          object
State                             object
Email Marketing: Status           object
Email Marketing: Level            object
Email Marketing: Updated At       object
SMS Marketing: Status             object
SMS Marketing: Level              object
SMS Marketing: Updated At         object
SMS Marketing: Source             object
Created At                        object
Updated At                        object
Note                             float64
Verified Email                      bool
Tax Exempt                          bool
Tags                              object
Tags Command                      object
Total Spent                      float64
Total Orders                     float64
Send Account Activation Email    float64
Multipass Identifier             float64
Row #                              in

### Informacion Tabla Productos

In [13]:
productos_df = pd.read_excel(productos_file)

resumen("Productos", productos_df)


===== Productos =====
Cantidad de filas: 30158
Cantidad de columnas: 16

Tipos de datos por columna:
ID                             int64
Handle                        object
Title                         object
Body HTML                     object
Type                          object
Tags                          object
Created At                    object
Updated At                    object
Image Src                     object
Image Position               float64
Image Width                  float64
Image Height                 float64
Variant Inventory Item ID    float64
Variant ID                   float64
Variant SKU                   object
Variant Barcode               object
dtype: object

--- Primeras filas ---
              ID         Handle                        Title  \
0  7949454147763   17083-007047  Medias hombre largas negras   
1  7949454147763   17083-007047  Medias hombre largas negras   
2  7949454147763   17083-007047  Medias hombre largas negras   
3  794945411

### Informacion Tabla Ordenes

In [14]:
orders_df = pd.read_csv(orders_file)
resumen("Orders", orders_df)

  orders_df = pd.read_csv(orders_file)



===== Orders =====
Cantidad de filas: 1736194
Cantidad de columnas: 37

Tipos de datos por columna:
Fulfillment: ID                      float64
Fulfillment: Status                   object
Fulfillment: Created At               object
Fulfillment: Updated At               object
Fulfillment: Tracking Company         object
Fulfillment: Location                 object
Fulfillment: Shipment Status          object
Fulfillment: Tracking Number         float64
ID                                     int64
Name                                  object
Send Receipt                            bool
Number                                 int64
Customer: ID                           int64
Line: ID                             float64
Transaction: ID                      float64
Transaction: Amount                  float64
Transaction: Currency                 object
Transaction: Shop Currency Amount    float64
Transaction: Shop Currency            object
Transaction: Status                   object