# Acrividad Automatización de la recolección
**Nombre:** Silvestre Hernandez Hernandez

### Extracción Automatizada de Datos de Archivos CSV

In [5]:
# Extracción Automatizada de Datos de Archivos CSV
"""
Crea un script en Python que automatice la extracción de datos de varios archivos CSV almacenados en una carpeta, combinándolos 
en un único DataFrame de Pandas.
Tips: Utiliza pandas para leer archivos CSV. Puedes usar os.listdir para listar los archivos en una carpeta.
"""
import os
import pandas as pd

# Definir la ruta de la carpeta que contiene los archivos CSV
carpeta_csv = './csv_noCombinados'

# Obtener una lista de todos los archivos en la carpeta
archivos_csv = [archivo for archivo in os.listdir(carpeta_csv) if archivo.endswith('.csv')]

# Creación de una lista para almacenar los DataFrames
dataframes = []

# Leer cada archivo CSV y agregar el DataFrame resultante a la lista
for archivo in archivos_csv:
    ruta_completa = os.path.join(carpeta_csv, archivo)
    df = pd.read_csv(ruta_completa)
    dataframes.append(df)

# Combinar todos los DataFrames en uno solo
df_combinado = pd.concat(dataframes, ignore_index=True)

# Mostrar el DataFrame combinado
print(df_combinado)

# Opcional: Guardar el DataFrame combinado en un nuevo archivo CSV
df_combinado.to_csv('./csv_conbinado/archivo_combinado.csv', index=False)



  Nombre  Edad     Ciudad
0    Ana    23     Madrid
1   Luis    34  Barcelona
2  Pedro    29   Valencia
3  Marta    22    Sevilla
4  Jorge    45     Bilbao
5  Lucía    31   Zaragoza


### Automatización de la Limpieza de Datos

In [7]:
# Automatización de la Limpieza de Datos
"""
Diseña un programa en Python que identifique y corrija valores atípicos y faltantes en un conjunto de datos proporcionado, utilizando Pandas.
Tips: Explora métodos como fillna() y dropna() para manejar valores faltantes y considera técnicas estadísticas para detectar valores atípicos.
"""
# Espacio para la solución del usuario:
import pandas as pd
import numpy as np
from scipy import stats

# Paso 2: Cargar el conjunto de datos que esta en una carpeta csv en un archivo llamado 'EjemploCsv.csv'
df = pd.read_csv('./csv/EjemploCsv.csv')

# Paso 3: Identificar y manejar valores faltantes
# Contar los valores faltantes por columna
print("Valores faltantes por columna:")
print(df.isnull().sum())

# imputar los valores faltantes en columnas numéricas con la media
df.fillna(df.mean(), inplace=True)

# Opcionalmente se podría eliminar filas con valores faltantes
# df.dropna(inplace=True)

# Paso 4: Detectar y corregir valores atípicos
# usar el método del rango intercuartílico (IQR) para identificar outliers en una columna 'columna1'
Q1 = df['columna1'].quantile(0.25)
Q3 = df['columna1'].quantile(0.75)
IQR = Q3 - Q1
filtro_outliers = (df['columna1'] < Q1 - 1.5 * IQR) | (df['columna1'] > Q3 + 1.5 * IQR)

# Opciones para manejar outliers, reemplazando con NaN o con el valor medio
df.loc[filtro_outliers, 'columna1'] = np.nan
# df['columna1'].fillna(df['columna1'].mean(), inplace=True)

# Guardar el DataFrame limpio en un nuevo archivo CSV
df.to_csv('./csv/datos_limpio.csv', index=False)


Valores faltantes por columna:
id          0
columna1    2
columna2    3
columna3    4
dtype: int64


### Integración de Datos de Diversas Fuentes

In [1]:
# Integración de Datos de Diversas Fuentes
"""
Utiliza Python para extraer datos de al menos dos fuentes diferentes (por ejemplo, un archivo CSV y una base de datos SQL), y combínalos 
en un único DataFrame.
Tips: Para la extracción de bases de datos SQL, utiliza SQLAlchemy o pandas read_sql. Usa merge() o concat() para combinar DataFrames.
"""
# Espacio para la solución del usuario:

import pandas as pd
from sqlalchemy import create_engine

# Leer el archivo CSV
df_csv = pd.read_csv('./csv/datos.csv')

# Conectar a la base de datos SQL y leer datos
engine = create_engine('sqlite:///Base_datos/basededatos.db')
df_sql = pd.read_sql('SELECT * FROM nombretabla', engine)

# Combinar los DataFrames utilizando la columna 'id'
df_combinado = pd.merge(df_csv, df_sql, on='id')

# Mostrar el DataFrame combinado
print(df_combinado)


   id nombre  edad     ciudad  salario
0   1   Juan    28     Madrid   3000.0
1   2    Ana    24  Barcelona   3200.0
2   3   Luis    35   Valencia   2800.0
3   4  Maria    30    Sevilla   3100.0
4   5  Pedro    22     Bilbao   3300.0


### Automatización de Extracción de Datos de API

In [2]:
# Automatización de Extracción de Datos de API
"""
Escribe un script en Python que extraiga datos de una API pública y los transforme en un formato utilizable para el análisis.
Tips: Utiliza la librería requests para hacer solicitudes a la API y json para procesar la respuesta.
"""
# Espacio para la solución del usuario:
import requests
import pandas as pd

# Paso 1: Hacer una solicitud a la API
response = requests.get('https://jsonplaceholder.typicode.com/users')

# Paso 2: Verificar que la solicitud fue exitosa
if response.status_code == 200:
    # Paso 3: Procesar la respuesta en formato JSON
    data = response.json()

    # Paso 4: Transformar los datos en un DataFrame
    df = pd.DataFrame(data)

    # Paso 5: Mostrar el DataFrame
    print(df.head())
else:
    print(f'Error: {response.status_code}')


   id              name   username                      email  \
0   1     Leanne Graham       Bret          Sincere@april.biz   
1   2      Ervin Howell  Antonette          Shanna@melissa.tv   
2   3  Clementine Bauch   Samantha         Nathan@yesenia.net   
3   4  Patricia Lebsack   Karianne  Julianne.OConner@kory.org   
4   5  Chelsey Dietrich     Kamren   Lucio_Hettinger@annie.ca   

                                             address                  phone  \
0  {'street': 'Kulas Light', 'suite': 'Apt. 556',...  1-770-736-8031 x56442   
1  {'street': 'Victor Plains', 'suite': 'Suite 87...    010-692-6593 x09125   
2  {'street': 'Douglas Extension', 'suite': 'Suit...         1-463-123-4447   
3  {'street': 'Hoeger Mall', 'suite': 'Apt. 692',...      493-170-9623 x156   
4  {'street': 'Skiles Walks', 'suite': 'Suite 351...          (254)954-1289   

         website                                            company  
0  hildegard.org  {'name': 'Romaguera-Crona', 'catchPhrase': 'Mu

### Simulación de Automatización de Preparación de Datos

In [4]:
# Simulación de Automatización de Preparación de Datos
"""
Crea un flujo de trabajo automatizado que simule la recepción de nuevos datos diariamente, limpie y transforme estos datos, y 
los almacene para análisis futuros.
Tips: Implementa un script que simule la adquisición de nuevos datos y usa pandas para las operaciones de limpieza y transformación.
"""
# Espacio para la solución del usuario:

import pandas as pd
import numpy as np
from datetime import datetime

# Función para simular la adquisición de nuevos datos
def adquirir_datos():
    # Simular datos con valores aleatorios
    np.random.seed(0)
    data = {
        'fecha': [datetime.now().strftime('%Y-%m-%d')] * 10,
        'valor1': np.random.randint(0, 100, 10),
        'valor2': np.random.randn(10) * 100,
        'categoria': np.random.choice(['A', 'B', 'C'], 10)
    }
    return pd.DataFrame(data)

# Función para limpiar los datos
def limpiar_datos(df):
    # Eliminar filas con valores nulos
    df = df.dropna()

    # Convertir la columna 'fecha' a tipo datetime
    df['fecha'] = pd.to_datetime(df['fecha'])

    return df

# Función para transformar los datos
def transformar_datos(df):
    # Crear una nueva columna basada en una condición
    df['valor1_categoria'] = df['valor1'] * df['categoria'].map({'A': 1, 'B': 2, 'C': 3})

    # Agregar columnas adicionales si es necesario
    df['valor2_abs'] = df['valor2'].abs()

    return df

# Función para almacenar los datos
def almacenar_datos(df, nombre_archivo='csv/datos_limpios.csv'):
    # Guardar el DataFrame en un archivo CSV
    df.to_csv(nombre_archivo, index=False)

# Flujo de trabajo automatizado
def flujo_trabajo():
    # Simular la adquisición de nuevos datos diariamente
    nuevos_datos = adquirir_datos()

    # Limpiar los datos
    datos_limpios = limpiar_datos(nuevos_datos)

    # Transformar los datos
    datos_transformados = transformar_datos(datos_limpios)

    # Almacenar los datos para análisis futuros
    almacenar_datos(datos_transformados)

# Ejecutar el flujo de trabajo
if __name__ == "__main__":
    flujo_trabajo()

