# Proyecto grupal: Librería de estadística en Python (POO)
**Curso:** Lenguaje Y Programacíon II  
**Integrantes del grupo:**  
- Castillo Flores, Hellary Mayte      20240699  
- Cruz Lozano, Gianella Alejandra     20240705  
- Tineo Balcázar, Daniela Rosa        20231510  

## Objetivo:  
Desarrollar una librería en Python que pemita calcular **Estadísticas básicas** para:  
- Datos **cuantittativos**  
- Datos **cualitativos**   

## Diseño de la librería

| Clase | Rol | Tipo de datos |
|--------|------|----------------|
| `DaniBase` | Clase padre, contiene métodos comunes como `contar()` y `mostrar_datos()` | Todos |
| `LarryCuantitativo` | Clase hija para estadísticas de datos numéricos | Cuantitativos |
| `GianeCualitativo` | Clase hija para análisis de datos categóricos | Cualitativos |

Cada clase hija **hereda** los métodos de `DaniBase` y redefine el método `resumen()` para mostrar diferentes resultados según el tipo de dato (**polimorfismo**).

In [2]:
class DaniBase:
    """Clase base para todas las estadísticas."""
    
    def __init__(self, datos):
        self.datos = datos

    def contar(self):
        """Devuelve la cantidad de elementos en los datos."""
        contador = 0
        for _ in self.datos:
            contador += 1
        return contador

    def mostrar_datos(self):
        """Muestra los datos almacenados."""
        return self.datos

    def resumen(self):
        """Método genérico a redefinir por las subclases."""
        print("Este método debe ser redefinido en las clases hijas.")


### Clase `DaniBase` 

Esta clase es la base del proyecto y contiene las operaciones  
comunes que usan las demás clases.  

Incluye:  
-`contar()` → cuenta manualmente cuántos elementos hay.  
-`mostrar_datos()` → devuelve la lista original de datos.  
-`resumen()` → es un método genérico que las clases hijas redefinirán.  

In [3]:
class LarryCuantitativo(DaniBase):
    """Clase para estadísticas cuantitativas."""
    
    def media(self):
        suma = 0
        for valor in self.datos:
            suma += valor
        cantidad = self.contar()
        return suma / cantidad if cantidad > 0 else 0
    
    def mediana(self):
        # ordenamos los datos manualmente con el metodo burbuja
        datos = self.datos[:]
        n = self.contar()
        for i in range(n):
            for j in range(0, n-i-1):
                if datos[j] > datos[j+1]:
                    datos[j], datos[j+1] = datos[j+1], datos[j]
        mitad = n // 2
        if n % 2 == 0:
            return (datos[mitad - 1] + datos[mitad]) / 2
        else:
            return datos[mitad]
    
    def varianza(self):
        media = self.media()
        suma_cuadrados = 0
        for valor in self.datos:
            suma_cuadrados += (valor - media) ** 2
        cantidad = self.contar()
        return suma_cuadrados / cantidad if cantidad > 0 else 0
    
    def desviacion_estandar(self):
        return self.varianza() ** 0.5
    
    def minimo(self):
        menor = self.datos[0]
        for valor in self.datos:
            if valor < menor:
                menor = valor
        return menor
    
    def maximo(self):
        mayor = self.datos[0]
        for valor in self.datos:
            if valor > mayor:
                mayor = valor
        return mayor
    
    #Polimorfismo: defenimos resumen
    def resumen(self):
        return {
            "Tipo de datos": "Cuantitativos",
            "Cantidad": self.contar(),
            "Media": self.media(),
            "Mediana": self.mediana(),
            "Varianza": round(self.varianza(), 2),
            "Desviación Estándar": round(self.desviacion_estandar(), 2),
            "Mínimo": self.minimo(),
            "Máximo": self.maximo()
        }
    


### Clase `LarryCuantitativo`

>Esta clase hereda de `DaniBase` y trabaja con **datos numéricos**.  

**Métodos implementados:**
- `media()`: representa el **promedio** de los datos. Indica el valor típico o central del conjunto numérico.  
- `mediana()`: es el **valor central** que divide los datos ordenados en dos partes iguales, mostrando la posición intermedia.  
- `varianza()`: mide la **dispersión** de los datos respecto a la media; muestra cuánto se alejan los valores del promedio.  
- `desviacion_estandar()`: indica el **grado de variabilidad** de los datos. Una desviación estándar alta implica valores muy dispersos.  
- `minimo()` y `maximo()`: muestran el **valor más pequeño y más grande** del conjunto, definiendo el rango de los datos.  

In [4]:
class GianeCualitativo(DaniBase):

    def moda(self):
        frecuencias = {}
        for elemento in self.datos:
            if elemento in frecuencias:
                frecuencias[elemento] += 1
            else:
                frecuencias[elemento] = 1

        # Encontrar frecuencia máxima
        max_freq = 0
        for valor in frecuencias.values():
            if valor > max_freq:
                max_freq = valor

        modas = []
        for clave, valor in frecuencias.items():
            if valor == max_freq:
                modas.append(clave)
        return modas

    def tabla_frecuencia(self):
        frecuencias = {}
        total = self.contar()

        # Frecuencia absoluta
        for elemento in self.datos:
            if elemento in frecuencias:
                frecuencias[elemento]["Frecuencia"] += 1
            else:
                frecuencias[elemento] = {"Frecuencia": 1}

        # Frecuencia relativa
        for clave in frecuencias:
            freq = frecuencias[clave]["Frecuencia"]
            frecuencias[clave]["Frecuencia relativa"] = round(freq / total, 2)

        return frecuencias

    def resumen(self):
        return {
            "Tipo de datos": "Cualitativos",
            "Cantidad": self.contar(),
            "Moda(s)": self.moda(),
            "Tabla de frecuencias": self.tabla_frecuencia()
        }


### Clase `GianeCualitativo`

Esta clase analiza **datos cualitativos o categóricos**, como colores, nombres o tipos. 

**Métodos principales:**
- `moda()`: Identifica los valores más frecuentes sin usar `Counter()`.
- `tabla_frecuencia()`: Calcula manualmente las frecuencias absolutas y relativas. 
- `resumen()`: Presenta los resultados generales. 

> Esta clase, así como LarryCuantitativo también hereda de `DaniBase` y aplica **polimorfismo**, redefiniendo `resumen()` para mostrar estadísticas cualitativas. 

In [5]:
class CualioCuanti:
    def __init__(self, columnas):
        self.columnas = columnas

    def detectar_tipo(self):
        tipos = {}
        for nombre, valores in self.columnas.items():
            try:
                [float(x) for x in valores]
                tipos[nombre] = "cuantitativa"
            except:
                tipos[nombre] = "cualitativa"
        return tipos

    def analizar(self):
        resultados = {}
        tipos = self.detectar_tipo()
        for nombre, tipo in tipos.items():
            valores = self.columnas[nombre]
            if tipo == "cuantitativa":
                datos = [float(x) for x in valores]
                analisis = LarryCuantitativo(datos)
            else:
                analisis = GianeCualitativo(valores)
            resultados[nombre] = analisis.resumen()
        return resultados


In [None]:
## Clase `CualioCuanti`

Esta clase **no lee archivos**, sino que recibe directamente los datos en forma de diccionario.

Sus funciones:
- Detectar si cada columna es **cuantitativa** o **cualitativa**.
- Aplicar la clase correspondiente (`LarryCuantitativo` o `GianeCualitativo`).


In [None]:
import pandas as pd
import requests
from io import StringIO

def leer_csv(ruta):
    """Lee un CSV local o de internet y devuelve un DataFrame."""
    if ruta.startswith("http://") or ruta.startswith("https://"):
        print("Descargando archivo desde internet...")
        response = requests.get(ruta)
        if response.status_code == 200:
            df = pd.read_csv(StringIO(response.text))
            print("Archivo descargado correctamente desde:", ruta)
        else:
            raise Exception("Error al descargar el archivo. Código:", response.status_code)
    else:
        df = pd.read_csv(ruta)
        print("Archivo cargado localmente:", ruta)

    print("Filas:", len(df), " | Columnas:", len(df.columns))
    return df


#el usuario decide si usa su propio CSV o el archivo por defecto
ruta = input("Ingresa la ruta o URL del archivo CSV (o presiona Enter para usar 'iris.csv' por defecto): ").strip()

if ruta == "":
    print("No se especificó ruta, usando archivo local por defecto (iris.csv).")
    df = leer_csv("iris.csv")
else:
    df = leer_csv(ruta)


columnas = {}
for col in df.columns:
    columnas[col] = list(df[col])

analizador = CualioCuanti(columnas)
resultados = analizador.analizar()

for nombre, resumen in resultados.items():
    print("\n---", nombre, "---")
    for clave, valor in resumen.items():
        print(clave, ":", valor)



Descargando archivo desde internet...
Archivo descargado correctamente desde: https://raw.githubusercontent.com/datacharmer/test_db/master/load_employees.dump
Filas: 300023  | Columnas: 7


In [None]:
##  Conclusión

En este notebook se aplicaron los principios básicos de la **Programación Orientada a Objetos (POO)**:  
- **Herencia:** todas las clases provienen de `DaniBase`.  
- **Polimorfismo:** cada clase redefine el método `resumen()` a su manera.  
- **Modularidad:** las funciones están separadas por responsabilidad.  

La clase `CualioCuanti` automatiza el proceso de identificar el tipo de dato  
y aplicar el análisis adecuado.  
El resultado es una librería simple, funcional y reutilizable para análisis estadísticos básicos en Python.


## Datasets publicos de prueba
- Iris: https://raw.githubusercontent.com/mwaskom/seaborn-data/master/iris.csv
- Titanic: https://raw.githubusercontent.com/mwaskom/seaborn-data/master/titanic.csv
- Tips (Propinas en restaurantes): https://raw.githubusercontent.com/mwaskom/seaborn-data/master/tips.csv
- Penguins (Palmer Penguins): https://raw.githubusercontent.com/mwaskom/seaborn-data/master/penguins.csv
- COVID-19 (Datos globales): https://raw.githubusercontent.com/datasets/covid-19/main/data/countries-aggregated.csv
- World Happiness Report (2019): https://raw.githubusercontent.com/plotly/datasets/master/2019.csv
- Amazon Reviews (sample): https://raw.githubusercontent.com/datacharmer/test_db/master/load_employees.dump
