# Acrividad Automatización de la recolección
**Nombre:** Silvestre Hernandez Hernandez

### Extracción Automatizada de Datos de Archivos CSV

In [5]:
# Extracción Automatizada de Datos de Archivos CSV
"""
Crea un script en Python que automatice la extracción de datos de varios archivos CSV almacenados en una carpeta, combinándolos 
en un único DataFrame de Pandas.
Tips: Utiliza pandas para leer archivos CSV. Puedes usar os.listdir para listar los archivos en una carpeta.
"""
import os
import pandas as pd

# Definir la ruta de la carpeta que contiene los archivos CSV
carpeta_csv = './csv_noCombinados'

# Obtener una lista de todos los archivos en la carpeta
archivos_csv = [archivo for archivo in os.listdir(carpeta_csv) if archivo.endswith('.csv')]

# Creación de una lista para almacenar los DataFrames
dataframes = []

# Leer cada archivo CSV y agregar el DataFrame resultante a la lista
for archivo in archivos_csv:
    ruta_completa = os.path.join(carpeta_csv, archivo)
    df = pd.read_csv(ruta_completa)
    dataframes.append(df)

# Combinar todos los DataFrames en uno solo
df_combinado = pd.concat(dataframes, ignore_index=True)

# Mostrar el DataFrame combinado
print(df_combinado)

# Opcional: Guardar el DataFrame combinado en un nuevo archivo CSV
df_combinado.to_csv('./csv_conbinado/archivo_combinado.csv', index=False)



  Nombre  Edad     Ciudad
0    Ana    23     Madrid
1   Luis    34  Barcelona
2  Pedro    29   Valencia
3  Marta    22    Sevilla
4  Jorge    45     Bilbao
5  Lucía    31   Zaragoza


### Automatización de la Limpieza de Datos

In [7]:
# Automatización de la Limpieza de Datos
"""
Diseña un programa en Python que identifique y corrija valores atípicos y faltantes en un conjunto de datos proporcionado, utilizando Pandas.
Tips: Explora métodos como fillna() y dropna() para manejar valores faltantes y considera técnicas estadísticas para detectar valores atípicos.
"""
# Espacio para la solución del usuario:
import pandas as pd
import numpy as np
from scipy import stats

# Paso 2: Cargar el conjunto de datos que esta en una carpeta csv en un archivo llamado 'EjemploCsv.csv'
df = pd.read_csv('./csv/EjemploCsv.csv')

# Paso 3: Identificar y manejar valores faltantes
# Contar los valores faltantes por columna
print("Valores faltantes por columna:")
print(df.isnull().sum())

# imputar los valores faltantes en columnas numéricas con la media
df.fillna(df.mean(), inplace=True)

# Opcionalmente se podría eliminar filas con valores faltantes
# df.dropna(inplace=True)

# Paso 4: Detectar y corregir valores atípicos
# usar el método del rango intercuartílico (IQR) para identificar outliers en una columna 'columna1'
Q1 = df['columna1'].quantile(0.25)
Q3 = df['columna1'].quantile(0.75)
IQR = Q3 - Q1
filtro_outliers = (df['columna1'] < Q1 - 1.5 * IQR) | (df['columna1'] > Q3 + 1.5 * IQR)

# Opciones para manejar outliers, reemplazando con NaN o con el valor medio
df.loc[filtro_outliers, 'columna1'] = np.nan
# df['columna1'].fillna(df['columna1'].mean(), inplace=True)

# Guardar el DataFrame limpio en un nuevo archivo CSV
df.to_csv('./csv/datos_limpio.csv', index=False)


Valores faltantes por columna:
id          0
columna1    2
columna2    3
columna3    4
dtype: int64


### Integración de Datos de Diversas Fuentes

In [None]:
# Integración de Datos de Diversas Fuentes
"""
Utiliza Python para extraer datos de al menos dos fuentes diferentes (por ejemplo, un archivo CSV y una base de datos SQL), y combínalos 
en un único DataFrame.
Tips: Para la extracción de bases de datos SQL, utiliza SQLAlchemy o pandas read_sql. Usa merge() o concat() para combinar DataFrames.
"""
# Espacio para la solución del usuario:

### Automatización de Extracción de Datos de API

In [None]:
# Automatización de Extracción de Datos de API
"""
Escribe un script en Python que extraiga datos de una API pública y los transforme en un formato utilizable para el análisis.
Tips: Utiliza la librería requests para hacer solicitudes a la API y json para procesar la respuesta.
"""
# Espacio para la solución del usuario:

### Simulación de Automatización de Preparación de Datos

In [None]:
# Simulación de Automatización de Preparación de Datos
"""
Crea un flujo de trabajo automatizado que simule la recepción de nuevos datos diariamente, limpie y transforme estos datos, y 
los almacene para análisis futuros.
Tips: Implementa un script que simule la adquisición de nuevos datos y usa pandas para las operaciones de limpieza y transformación.
"""
# Espacio para la solución del usuario:


