## Índice

1. [LECTURA DE ARCHIVOS CON PANDAS](#lectura-de-archivos-con-pandas)  
   1.1 [USO DE OS](#uso-de-os)  
   1.1.1[LECTURA UN SOLO ARCHIVO](#lectura-de-un-solo-archivo)  
   1.1.2[LECTURA MÚLTIPLES ARCHIVOS](#lectura-multiples-archivos)  
2. [PANDAS-PROFILING](#usando-pandas-profiling)  
3. [LIMPIEZA DE DATOS](#limpiexza-de-datos)  
   3.1[DUPLICADOS](#drop-duplicates)  
   3.2[NULOS](#manejo-de-valores-nulos)  
4. [ENCODERS](#transformación-de-variables-categoricas-a-númericas)  
   4.1[sckitlearn](#usando-sckitlearn)  
   4.2[CategoryEncoders](#usando-librerïa-category_encoders)  
5. [NORMALIZACIÓN y ESTÁNDARIZACIÓN](#estandarizaciön-y-normalizaciön)  
6. [PDB](#pdb)
7. [MANEJO BÁSICO DF DF](#manejo-básico-df)  
   7.1[FUNCIONES LAMBDA](#funciones-lambda)  
   7.2[MAPEOS EN DF](#map-apply-applymap)  
   7.3[TABLAS CRUZADAS](#tablas-cruzadas)  
8. [GRÁFICOS CON PLOTLY EXPRESS](#gráficos-con-plotly-express)  
   8.1[BARPLOT](#bar-plot)  
   8.2[LINEPLOT](#line-plot)  
   8.3[PIEPLOT](#pie-plot)  
   8.4[HEATMAP](#heat-map)  
   8.5[GRAFICOS GRUPOS](#comparación)
9. [FECHAS](#fechas)  

In [None]:
import pandas as pd
import numpy as np
import json
import os
import glob
import plotly.express as px

## LECTURA DE ARCHIVOS CON PANDAS

### USO DE OS

In [None]:
directorio = "/ruta/del/directorio"
lista_archivos = os.listdir(directorio)
print(lista_archivos)
## DIRECTORIO ACTUAL
current_directory=os.getcwd()
## cambio de directorio
# Nuevo directorio al que deseas cambiar
nuevo_directorio = "/ruta/del/nuevo/directorio"
# Cambiar el directorio de trabajo
os.chdir(nuevo_directorio)


### LECTURA DE UN SOLO ARCHIVO

In [None]:
# Leer archivo CSV
def read_csv_file(file_path):
    df = pd.read_csv(file_path)
    return df

# Leer archivo JSON
def read_json_file(file_path):
    df = pd.read_json(file_path)
    return df

# Leer archivo Parquet
def read_parquet_file(file_path):
    df = pd.read_parquet(file_path)
    return df

# Leer otros tipos de archivos según su extensión
def read_file(file_path):
    file_extension = file_path.split(".")[-1]
    if file_extension == "csv":
        return read_csv_file(file_path)
    elif file_extension == "json":
        return read_json_file(file_path)
    elif file_extension == "parquet":
        return read_parquet_file(file_path)
    else:
        print(f"Tipo de archivo no soportado: {file_extension}")
        return None

### LECTURA MULTIPLES ARCHIVOS

In [None]:
# Leer archivos CSV
def read_csv_files(file_pattern):
    csv_files = glob.glob(file_pattern)
    dfs = [pd.read_csv(file) for file in csv_files]
    concatenated_df = pd.concat(dfs, ignore_index=True)
    return concatenated_df

# Leer archivos JSON
def read_json_files(file_pattern):
    json_files = glob.glob(file_pattern)
    dfs = [pd.read_json(file) for file in json_files]
    concatenated_df = pd.concat(dfs, ignore_index=True)
    return concatenated_df

# Leer archivos Parquet
def read_parquet_files(file_pattern):
    parquet_files = glob.glob(file_pattern)
    dfs = [pd.read_parquet(file) for file in parquet_files]
    concatenated_df = pd.concat(dfs, ignore_index=True)
    return concatenated_df

# Leer otros tipos de archivos según su extensión
def read_files(file_pattern):
    file_extension = file_pattern.split(".")[-1]
    if file_extension == "csv":
        return read_csv_files(file_pattern)
    elif file_extension == "json":
        return read_json_files(file_pattern)
    elif file_extension == "parquet":
        return read_parquet_files(file_pattern)
    else:
        print(f"Tipo de archivo no soportado: {file_extension}")
        return None

# Ejemplo de uso para leer y concatenar todos los archivos CSV en un directorio específico
#directory_path_csv = "directorio_donde_se_encuentran_los_csv/*.csv"
#concatenated_df_csv = read_files(directory_path_csv)

# Ejemplo de uso para leer y concatenar todos los archivos JSON en un directorio específico
#directory_path_json = "directorio_donde_se_encuentran_los_json/*.json"
#concatenated_df_json = read_files(directory_path_json)

# Ejemplo de uso para leer y concatenar todos los archivos Parquet en un directorio específico
#directory_path_parquet = "directorio_donde_se_encuentran_los_parquet/*.parquet"
#concatenated_df_parquet = read_files(directory_path_parquet)

# USANDO PANDAS PROFILING

In [None]:

from pandas_profiling import ProfileReport

In [None]:
#cargo df de pruba
def read_csv_file(file_path):
    df = pd.read_csv(file_path)
    return df

df=read_csv_file('gait.csv')
data = pd.util.testing.makeTimeDataFrame(100)

In [None]:
# Generar el informe de Pandas Profiling
profile = ProfileReport(data)
# Guardar el informe en un archivo HTML (opcional)
profile.to_file("informe.html")
# Visualiza reporte en upyter
profile.to_notebook_iframe()

## LIMPIEXZA DE DATOS

### drop duplicates

In [None]:
#ELimina duplicados de todas las columnas
df.drop_duplicates(inplace=True)
# Elimina duplicados de columnas especificas
df_sin_duplicados_subset = df.drop_duplicates(subset=['A', 'B'])

### MANEJO DE VALORES NULOS

In [None]:
# Eliminar filas con valores nulos
df_sin_nulos_filas = df.dropna()

# Eliminar columnas con valores nulos
df_sin_nulos_columnas = df.dropna(axis=1)

# Rellenar valores faltantes con un valor específico
df_rellenado_valor = df.fillna(0)

# Rellenar valores faltantes con el valor medio de la columna 'A'
df_rellenado_media = df.fillna(df['A'].mean())

# Realizar interpolación lineal para rellenar valores faltantes
df_interpolado = df.interpolate()

# Reemplazar los valores nulos con el valor -1
df_reemplazado = df.replace(to_replace=None, value=-1)


### Transformación de Variables Categoricas a Númericas

#### USANDO SCKITLEARN

In [None]:
#CAUNDO TENGO CATEGORIAS Y QUIERO UNA COLUMNA CON ETIQUETA ÜNICA
from sklearn.preprocessing import LabelEncoder
data = {'fruta': ['manzana', 'plátano', 'manzana', 'uva', 'plátano']}
df = pd.DataFrame(data)
# Aplicar Label Encoding a la columna 'fruta'
label_encoder = LabelEncoder()
df['fruta_encoded'] = label_encoder.fit_transform(df['fruta'])

#### GET DUMMIES

In [None]:
# Aplicar One-Hot Encoding a la columna 'fruta' crea columna dummies para cada categoría
df_one_hot = pd.get_dummies(df, columns=['fruta'], prefix='fruta')

#### CASO ORDIUNAL

In [None]:
# Crear un diccionario de mapeo para codificación ordinal
mapeo_ordinal = {'manzana': 1, 'plátano': 2, 'uva': 3}
# Aplicar codificación ordinal a la columna 'fruta'
df['fruta_encoded_ordinal'] = df['fruta'].map(mapeo_ordinal)
print(df)

### USANDO LIBRERÏA category_encoders

In [None]:
import category_encoders as ce

In [None]:
data = {'fruta': ['manzana', 'plátano', 'manzana', 'uva', 'plátano']}
df = pd.DataFrame(data)
#LLAMO EL ENCODER
encoder = ce.OneHotEncoder(cols=['fruta']) #ce.OneHotEncoder
df_binary = encoder.fit_transform(df)
df_binary

### ESTANDARIZACIÖN Y NORMALIZACIÖN

### NORMALIZACIÖN 

In [None]:
"""
Algoritmos que requieren normalización:
K-means
Gaussian mixture models
Principal component analysis
Support vector machines
"""

from sklearn.preprocessing import MinMaxScaler

# Crear un DataFrame de ejemplo
data = {'feature1': [10, 20, 30, 40, 50],
        'feature2': [100, 200, 300, 400, 500]}
df = pd.DataFrame(data)

# Aplicar la normalización a las características
scaler = MinMaxScaler()
df_normalized = pd.DataFrame(scaler.fit_transform(df), columns=df.columns)
print(df_normalized)

### ESTANDARIZACIÓN

In [None]:
"""Algoritmos que requieren estandarización:
Regresión lineal
Regresión logística
Árboles de decisión
Bosques aleatorios
"""

# SE estandariza uso de distribucciones normales
from sklearn.preprocessing import StandardScaler

# Crear un DataFrame de ejemplo
data = {'feature1': [10, 20, 30, 40, 50],
        'feature2': [100, 200, 300, 400, 500]}
df = pd.DataFrame(data)

# Aplicar la estandarización a las características
scaler = StandardScaler()
df_standardized = pd.DataFrame(scaler.fit_transform(df), columns=df.columns)

print(df_standardized)


### PDB

In [None]:
import pdb

def suma(a, b):
    resultado = a + b
    return resultado

# Punto de ruptura: pausar la ejecución aquí para inspeccionar variables
pdb.set_trace()

x = 5
y = 10
resultado_suma = suma(x, y)

# Continuar la ejecución sin detenerse en el punto de ruptura
pdb.set_trace()

z = 20
resultado_suma_z = suma(resultado_suma, z)
print(resultado_suma_z)


### Map, Apply, Mapaplly

In [None]:
# map aplica función a colecciones como listas o tuplas o diccionarios, sirve para columnas de df ya que son Series
def cuadrado(numero):
    return numero ** 2

numeros = [1, 2, 3, 4, 5]
cuadrados = map(cuadrado, numeros)
print(list(cuadrados))

In [None]:
# Apply es función dependiente de pandas para aplicar funciones a dataframes
data = {'A': [1, 2, 3], 'B': [4, 5, 6]}
df = pd.DataFrame(data)
def suma_cuadrados(x):
    return x['A']**2 + x['B']**2
# Aplica la función 'suma_cuadrados' a lo largo de las filas (eje 1) del DataFrame
df['Suma_Cuadrados'] = df.apply(suma_cuadrados, axis=1)
print(df)

In [None]:
data = [(3,5,7), (2,4,6),(5,8,9)]
df = pd.DataFrame(data, columns = ['A','B','C'])
print(df)

In [None]:
# APPLY para una sola columna
df["D"]=df["A"].apply(lambda x: x*10)
print(df)

In [None]:
#APPLY PARA TOD EL DF
df_2=df.apply(lambda x: x*10)
print(df_2)

### FUNCIONEs LAMBDA

In [None]:
# FUNCIONES ANÓNIMAS DE FACIL ACCESO 
cuadrado = lambda x: x**2
resultado = cuadrado(5)
print(resultado) 

In [None]:
# EJEMPLO CON FILTER
numeros = [1, 2, 3, 4, 5, 6, 7, 8, 9, 10]

# Filtrar los números pares de la lista
numeros_pares = filter(lambda x: x % 2 == 0, numeros)

# Convertir el objeto 'filter' a una lista para imprimir los resultados
print(list(numeros_pares))  # Salida: [2, 4, 6, 8, 10]

In [None]:
#EJMEPLO CON SORTED
personas = [
    {'nombre': 'Juan', 'edad': 30},
    {'nombre': 'María', 'edad': 25},
    {'nombre': 'Pedro', 'edad': 35},
    {'nombre': 'Ana', 'edad': 28}
]

# Ordenar las personas por edad de menor a mayor
personas_ordenadas = sorted(personas, key=lambda x: x['edad'])

# Imprimir las personas ordenadas
for persona in personas_ordenadas:
    print(persona['nombre'], persona['edad'])

In [None]:
# FUNCIÏON LAMD

In [None]:
# FUNCIÖN LAMBDA CON CONDICIONALES Y BUCLES
# Función lambda que devuelve la suma de los números pares en un rango dado
sumar_pares = lambda x, y: sum(num for num in range(x, y+1) if num % 2 == 0)

# Llamar a la función lambda
resultado = sumar_pares(1, 10)
print(resultado)  # Salida: 30 (2 + 4 + 6 + 8 + 10)

### MANEJO BÁSICO DF

In [None]:
# CREACIÖN Y EXPLORACIÓN
data = {
    'Nombre': ['Juan', 'María', 'Pedro'],
    'Edad': [30, 25, 28],
    'Ciudad': ['Madrid', 'Barcelona', 'Valencia']
}
df = pd.DataFrame(data)

# Número de filas y columnas
print(df.shape)

# Nombres de las columnas
print(df.columns)

# Tipos de datos de las columnas
print(df.dtypes)

# Estadísticas básicas del DataFrame
print(df.describe())

In [None]:
# ACCESO Y FILTRADO
# Acceder a una columna
print(df['Nombre'])

# Acceder a una fila por índice
print(df.loc[0])

# Filtrar por condición
mayores_de_28 = df[df['Edad'] > 28]
print(mayores_de_28)

In [None]:
# ORDENAR Y REINDEXAR
# Ordenar por una columna
df_ordenado = df.sort_values(by='Edad', ascending=False)
print(df_ordenado)

# Reindexar el DataFrame
df_reindexado = df.reset_index(drop=True)
print(df_reindexado)

## GRÁFICOS CON PLOTLY EXPRESS

### SCATTERPLOT

In [None]:

# Datos de ejemplo
x = [1, 2, 3, 4, 5]
y = [10, 6, 8, 3, 7]

# Crear un gráfico de dispersión con Plotly Express (PX)
fig = px.scatter(x=x, y=y, labels={'x': 'Eje X', 'y': 'Eje Y'}, title='Gráfico de Dispersión')
fig.update_layout(width=500, height=400)  # Dimensiones del gráfico
fig.show()

### BAR PLOT

In [None]:
# Datos de ejemplo
categorias = ['A', 'B', 'C', 'D']
valores = [10, 6, 8, 3]

# Crear un gráfico de barras con Plotly Express (PX)
fig = px.bar(x=categorias, y=valores, labels={'x': 'Categorías', 'y': 'Valores'}, title='Gráfico de Barras')
fig.update_layout(width=600, height=400)  # Dimensiones del gráfico
fig.update_traces(texttemplate='%{y}', textposition='inside')  # Etiquetas internas al gráfico
fig.show()

### LINE PLOT

In [None]:
# Datos de ejemplo
x = [1, 2, 3, 4, 5]
y = [10, 6, 8, 3, 7]

# Crear un gráfico de línea con Plotly Express (PX)
fig = px.line(x=x, y=y, labels={'x': 'Eje X', 'y': 'Eje Y'}, title='Gráfico de Línea')
fig.update_layout(width=500, height=400)  # Dimensiones del gráfico
fig.show()

### PIE PLOT

In [None]:
# Datos de ejemplo
categorias = ['A', 'B', 'C', 'D']
valores = [10, 6, 8, 3]

# Crear un gráfico de pastel con Plotly Express (PX)
fig = px.pie(names=categorias, values=valores, title='Gráfico de Pastel')
fig.update_layout(width=400, height=400)  # Dimensiones del gráfico
fig.update_traces(textinfo='percent+label', textposition='inside')  # Etiquetas internas al gráfico
fig.show()



### HEAT MAP

In [None]:
# Datos de ejemplo
datos = [
    [1, 2, 3],
    [4, 5, 6],
    [7, 8, 9]
]

# Crear un mapa de calor con Plotly Express (PX)
fig = px.imshow(datos, title='Mapa de Calor')
fig.update_layout(width=400, height=400)  # Dimensiones del gráfico
fig.show()

## COMPARACIÓN

In [None]:

# Datos de ejemplo
# Datos de ejemplo
categorias = ['A', 'B', 'C', 'D']
grupo_1 = [10, 15, 8, 12]
grupo_2 = [8, 10, 6, 9]
grupo_3 = [12, 14, 10, 11]

# Crear un gráfico de barras agrupadas con Plotly Express (PX)
fig = px.bar(x=categorias, y=[grupo_1, grupo_2, grupo_3],
             labels={'x': 'Categorías', 'y': 'Valores', 'color': 'Grupos'},
             title='Comparación de 3 Grupos por Categoría', barmode='group',
             color_discrete_sequence=px.colors.qualitative.Plotly)

# Personalizar etiquetas
fig.update_traces(texttemplate='%{y}', textposition='outside')

# Personalizar nombres de las leyendas
fig.update_layout(legend_title_text='Grupos', legend=dict(title='Grupos'))

fig.show()





fig.update_layout(width=600, height=600) 

fig.show()

In [None]:
tiempo = [1, 2, 3, 4, 5]
grupo_1 = [10, 15, 8, 12, 9]
grupo_2 = [8, 10, 6, 9, 11]
grupo_3 = [12, 14, 10, 11, 7]

# Crear un gráfico de líneas múltiples con Plotly Express (PX)
fig = px.line(x=tiempo, y=[grupo_1, grupo_2, grupo_3],
              labels={'x': 'Tiempo', 'y': 'Valores', 'color': 'Grupos'},
              title='Comparación de 3 Grupos a lo largo del Tiempo',
              color_discrete_sequence=px.colors.qualitative.Plotly)
fig.update_layout(width=600, height=600) 
fig.show()

## TABLAS CRUZADAS

In [None]:
data = {
    'Grupo': ['A', 'B', 'A', 'B', 'A'],
    'Categoria': ['X', 'Y', 'X', 'Z', 'Z']
}
df = pd.DataFrame(data)
print(df)
pdb.set_trace()
tabla_cruzada = pd.crosstab(df['Grupo'], df['Categoria'], margins=True, margins_name='Total')
print(tabla_cruzada)
pdb.set_trace()
tabla_cruzada = pd.crosstab(df['Grupo'], df['Categoria'], normalize='index')
print(tabla_cruzada)
pdb.set_trace()
data = {
    'Grupo': ['A', 'B', 'A', 'B', 'A'],
    'Categoria': ['X', 'Y', 'X', 'Z', 'Z'],
    'Otro': ['Sí', 'No', 'Sí', 'Sí', 'No']
}
df = pd.DataFrame(data)

tabla_cruzada = pd.crosstab([df['Grupo'], df['Otro']], df['Categoria'])
print(tabla_cruzada)


# FECHAS

## Crear fechas

In [None]:
fechas_str = ['2023-07-30', '2023-07-31', '2023-08-01']
fechas_datetime = pd.to_datetime(fechas_str)
print(fechas_datetime)

# Crear un rango de fechas desde '2023-07-01' hasta '2023-07-10'
rango_fechas = pd.date_range(start='2023-07-01', end='2023-07-10')
print(rango_fechas)

## Extraer componentes de Fecha

In [None]:
df = pd.DataFrame({'fechas': fechas_datetime})
df['año'] = df['fechas'].dt.year
df['mes'] = df['fechas'].dt.month
df['día'] = df['fechas'].dt.day
print(df)

## OPERACIONES DELTA TIME

In [None]:
# Calcular la fecha 3 días después de una fecha dada
fecha_inicial = pd.to_datetime('2023-07-30')
dias_despues = pd.Timedelta(days=3)
fecha_resultado = fecha_inicial + dias_despues
print(fecha_resultado)

## Filtrado ppor Fechas

In [None]:
# Filtrar un DataFrame según un rango de fechas
df_filtrado = df.loc[(df['fechas'] >= '2023-07-30') & (df['fechas'] <= '2023-07-31')]
print(df_filtrado)

## AGRUPADO POR FECHAS

In [None]:
# Crear un DataFrame con fechas y valores
data = {
    'fechas': pd.date_range(start='2023-07-01', end='2023-07-10', freq='D'),
    'valores': [10, 15, 8, 12, 9, 6, 4, 7, 3, 2]
}
df = pd.DataFrame(data)

# Agrupar por mes y calcular la suma de valores por mes
df_agrupado = df.resample('M', on='fechas').sum()
print(df_agrupado)


## Formatear Fechas

In [None]:
# Convertir objetos datetime en cadenas de texto con formato específico
fecha_str = fecha_inicial.strftime('%Y-%m-%d')
print(fecha_str)

In [None]:
# Convertir una cadena de texto en un objeto datetime
fecha_str = '2023-07-30'
fecha_datetime = pd.to_datetime(fecha_str)
print(fecha_datetime)

## Comparar Fechas

In [None]:
# Comparar fechas en DataFrames
df = pd.DataFrame({'fechas': pd.date_range(start='2023-07-01', periods=5, freq='D')})
fecha_comparar = pd.to_datetime('2023-07-03')
df['es_mayor'] = df['fechas'] > fecha_comparar
print(df)