# 🔥 Reto 19: Analizador de Archivos CSV 🔥

## 🏆 Objetivo:

Desarrollar un programa en Python que lea un archivo CSV y realice un análisis básico de los datos contenidos en él.

## 📝 Requisitos:

1️⃣ Lectura del archivo CSV:  
🔸 Solicitar al usuario el nombre del archivo CSV a analizar.  
🔸 Manejar posibles excepciones si el archivo no existe o no se puede leer.  

2️⃣ Análisis de datos:  
🔸 Contar el número total de filas y columnas.  
🔸 Mostrar los nombres de las columnas.  
🔸 Calcular estadísticas básicas para columnas numéricas (por ejemplo, media, mediana, valor máximo y mínimo).  

3️⃣ Opciones adicionales:  
🔸 Permitir al usuario filtrar los datos según criterios específicos (por ejemplo, mostrar filas donde el valor en una columna sea mayor que un umbral).  
🔸 Guardar los resultados del análisis en un nuevo archivo CSV si el usuario lo desea.  

## 🔍 Pistas:

🔹 Puedes utilizar el módulo csv de Python para manejar la lectura de archivos CSV.  
🔹 Para el cálculo de estadísticas, considera usar bibliotecas como pandas o statistics.  
🔹 Asegúrate de manejar adecuadamente las excepciones y proporcionar mensajes claros al usuario en caso de errores.  

## 📌 Ejemplo de ejecución:

\>>> Ingresa el nombre del archivo CSV (con extensión .csv): datos.csv  
\>>> Cargando datos...  

Análisis del archivo 'datos.csv':  
- Número total de filas: 150  
- Número total de columnas: 5  
- Nombres de las columnas: ['ID', 'Nombre', 'Edad', 'Ciudad', 'Salario']  

Estadísticas de columnas numéricas:  
- Edad: media=35.4, mediana=34, mínimo=22, máximo=58  
- Salario: media=55000.0, mediana=54000, mínimo=30000, máximo=80000  

¿Deseas filtrar los datos? (s/n): s  
\>>> Ingresa la columna para filtrar: Edad  
\>>> Ingresa el valor umbral: 30  
\>>> Mostrando filas donde 'Edad' > 30...  

\[Se muestran las filas correspondientes]  

¿Deseas guardar los resultados en un nuevo archivo CSV? (s/n): s  
\>>> Ingresa el nombre del nuevo archivo CSV: filtrados.csv  
\>>> Guardando datos en 'filtrados.csv'...  
Proceso completado.  

In [2]:
import pandas as pd

def analyze_csv(file_path):
    """
    Reads a CSV file and performs basic analysis.

    :param file_path: Path to the CSV file.
    """
    try:
        # Load the CSV file into a DataFrame
        df = pd.read_csv(file_path)

        # Count rows and columns
        num_rows, num_columns = df.shape
        column_names = df.columns.tolist()

        print("\n>>> Loading data...\n")
        print(f"Analysis of the file '{file_path}':")
        print(f"- Total number of rows: {num_rows}")
        print(f"- Total number of columns: {num_columns}")
        print(f"- Column names: {column_names}\n")

        # Filter only numeric columns for statistics
        numeric_cols = df.select_dtypes(include=['number'])

        if not numeric_cols.empty:
            print("Statistics of numeric columns:")
            for col in numeric_cols.columns:
                print(f"- {col}: mean={numeric_cols[col].mean():.1f}, "
                      f"median={numeric_cols[col].median():.0f}, "
                      f"min={numeric_cols[col].min()}, "
                      f"max={numeric_cols[col].max()}")
        else:
            print("No numeric columns to analyze.")

        return df

    except FileNotFoundError:
        print("❌ Error: The file does not exist. Check the name and location.")
        return None
    except pd.errors.EmptyDataError:
        print("❌ Error: The file is empty.")
        return None
    except pd.errors.ParserError:
        print("❌ Error: Could not parse the file. Check the format.")
        return None

def filter_data(df):
    """
    Allows the user to filter the DataFrame based on a numeric column.
    
    :param df: Pandas DataFrame.
    :return: Filtered DataFrame.
    """
    while True:
        filter_choice = input("\nDo you want to filter the data? (y/n): ").strip().lower()
        if filter_choice == 'y':
            print("\nAvailable columns to filter:", df.select_dtypes(include=['number']).columns.tolist())
            column_name = input(">>> Enter the column to filter: ").strip()

            if column_name in df.columns and pd.api.types.is_numeric_dtype(df[column_name]):
                try:
                    threshold = float(input(">>> Enter the threshold value: "))
                    df_filtered = df[df[column_name] > threshold]
                    print(f"\nShowing rows where '{column_name}' > {threshold}...\n")
                    print(df_filtered.head())
                    return df_filtered
                except ValueError:
                    print("❌ Error: Enter a valid number.")
            else:
                print("❌ Error: Invalid column or not numeric.")
        elif filter_choice == 'n':
            return df
        else:
            print("❌ Invalid response. Enter 'y' or 'n'.")

def save_filtered_data(df):
    """
    Saves the filtered DataFrame to a new CSV file.
    
    :param df: Filtered DataFrame.
    """
    while True:
        save_choice = input("\nDo you want to save the results to a new CSV file? (y/n): ").strip().lower()
        if save_choice == 'y':
            file_name = input(">>> Enter the name of the new CSV file: ").strip()
            df.to_csv(file_name, index=False, encoding='utf-8')
            print(f">>> Saving data to '{file_name}'...\nProcess completed.")
            break
        elif save_choice == 'n':
            print(">>> Data not saved.")
            break
        else:
            print("❌ Invalid response. Enter 'y' or 'n'.")

# Main program
file_name = input(">>> Enter the name of the CSV file (with .csv extension): ").strip()

df = analyze_csv(file_name)
if df is not None:
    df_filtered = filter_data(df)
    save_filtered_data(df_filtered)

>>> Enter the name of the CSV file (with .csv extension):  datos_ejemplo.csv



>>> Loading data...

Analysis of the file 'datos_ejemplo.csv':
- Total number of rows: 20
- Total number of columns: 5
- Column names: ['ID', 'Nombre', 'Edad', 'Ciudad', 'Salario']

Statistics of numeric columns:
- ID: mean=10.5, median=10, min=1, max=20
- Edad: mean=35.6, median=34, min=25, max=50
- Salario: mean=43600.0, median=44000, min=30000, max=60000



Do you want to filter the data? (y/n):  y



Available columns to filter: ['ID', 'Edad', 'Salario']


>>> Enter the column to filter:  Salario
>>> Enter the threshold value:  1000



Showing rows where 'Salario' > 1000.0...

   ID  Nombre  Edad     Ciudad  Salario
0   1    Juan    25     Madrid    30000
1   2   María    34  Barcelona    45000
2   3  Carlos    42    Sevilla    50000
3   4     Ana    29   Valencia    32000
4   5    Luis    31     Bilbao    41000



Do you want to save the results to a new CSV file? (y/n):  n


>>> Data not saved.
