# Inventario de funciones utiles

In [1]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns

### Creacion de una funcion que analice los datasets en una carpeta y retorne un DataFrame que resuma:

* Archivo
* Cantidad de registros
* Nombre de las columnas de cada Dataset
* Numero de columnas
* Numero de duplicados
* Numero de duplicados

In [None]:
import pandas as pd
import glob

def resumen_datasets(directorio):
    resumen = []

    # Usar glob para obtener todas las rutas de archivos CSV en el directorio
    rutas = glob.glob(f"{directorio}/*.csv")

    for ruta in rutas:
        df = pd.read_csv(ruta)
        nombre_archivo = ruta.split('/')[-1]
        columnas = ', '.join(df.columns)  # Convertir la lista de columnas a una cadena de texto
        total_columnas = len(df.columns)  # Contar el total de columnas
        resumen.append({
            'archivo': nombre_archivo,
            'registros': len(df),
            'columnas': columnas,
            'num_columnas': total_columnas,
            'duplicados': df.duplicated().sum(),
            'nulos': df.isnull().sum().sum()
        })

    return pd.DataFrame(resumen)

# Ejemplo de uso
directorio = '../Data/Clase 2'
resumen_df = resumen_datasets(directorio)
resumen_df

### Funcion que toma un DataFrame y analiza informacion sobre variables tipo Objeto y retorna

* Numero de Nulos
* Valores unicos
* Conteo
* Moda
* Frecuencias de la moda

In [None]:
def summarize_dataframe(df):
    # Select only non-numeric columns
    non_numeric_df = df.select_dtypes(exclude=['number'])
    
    # Create the summary DataFrame
    summary = pd.DataFrame({
        'Column': non_numeric_df.columns,
        'Data Type': non_numeric_df.dtypes,
        'Number of Nulls': non_numeric_df.isnull().sum(),
        'Count': non_numeric_df.count(),
        'Unique': non_numeric_df.nunique(),
        'Top': non_numeric_df.mode().iloc[0],
        'Frequency': non_numeric_df.apply(lambda x: x.value_counts().iloc[0] if not x.value_counts().empty else None)
    })
    
    # Reset the index
    summary.reset_index(drop=True, inplace=True)
    
    return summary

### Convertir un rango de columnas a otro tipo de dato

In [None]:
df[df.loc[:,'col1':'coln'].columns] = df.loc[:,'col':'coln'].astype('dtype')

### Imputar valores nulos usando .fillna()

In [None]:
df.loc[:, 'col'] = df['col'].fillna(value='input_value')
df.loc[:, 'col'] = df['col'].fillna(df['col'].mode().values[0])

### Calcular valores unicos y el conteo para generar un grafico de barras con etiquetas

In [None]:
x, y = np.unique('data', return_counts=True)

# Create a bar chart
f, ax = plt.subplots()
bars = ax.bar(x, y)
ax.set_title('Graph Title')
ax.set_xlabel('X axis Title')
ax.set_ylabel('Frequency')

# Add data labels to each bar
for bar in bars:
    height = bar.get_height()
    ax.text(bar.get_x() + bar.get_width() / 2, height, str(height), ha='center', va='bottom')

In [None]:
import matplotlib.pyplot as plt

# Step 2: Define data

# Step 3: Create a figure and axes
fig, ax = plt.subplots()

# Step 4: Plot data (change this line to change the type of graph)
ax.plot(x, y)  # For a line plot
# ax.scatter(x, y)  # For a scatter plot
# ax.bar(x, y)  # For a bar chart

# Step 5: Customize the plot
ax.set_title('Sample Plot')
ax.set_xlabel('X Axis')
ax.set_ylabel('Y Axis')

# Step 6: Show or save the plot
plt.show()
# plt.savefig('plot.png')

In [None]:
def analyze_dataframe(df):    
    # Basic summary metrics
    summary = {
        'Metric': ['Number of columns', 'Number of rows', 'Number of duplicate rows', 'Number of null values'],
        'Value': [df.shape[1], df.shape[0], df.duplicated().sum(), df.isnull().sum().sum()]
    }    
    # Create the summary DataFrame
    summary_df = pd.DataFrame(summary)    
      
    return summary_df

In [None]:
# Generar 1000 variables aleatorias de Poisson
lambda_val = 3  # Tasa promedio de ocurrencia
variables_aleatorias = poisson.rvs(mu=lambda_val, size=1000)

ser_var = pd.Series(variables_aleatorias)
bars = ser_var.value_counts()/len(ser_var)
bars = bars.sort_index()

# Graficar el diagrama de barras
bars.plot(kind='bar')

# Mostrar el gráfico
plt.title('Diagrama de barras Variables Aleatorias de Poisson')
plt.show()