# **Pandas**

## Datetime

Pandas DateTime es un tipo de datos que proporciona la biblioteca Pandas para gestionar datos de fecha y hora de forma eficiente. Permite realizar varias operaciones con valores DateTime, como analizar cadenas para convertirlas en objetos DateTime, formatear objetos DateTime para convertirlos en cadenas y realizar operaciones aritméticas con datos DateTime.

## **0. Importar las librerías**

In [None]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
import tabulate
sns.set_theme(style="whitegrid")
pd.set_option('display.max_columns', None)
pd.set_option('display.max_rows', None)

## **1. Recolectar y Cargar un conjunto de datos tabulares.**

+ Vamos a utilizar el conjunto de datos:

 Dummy_Sales_Data.csv


### Acceso a archivos usando Google Colab

In [None]:
#Al ejecutar esta celda, Google Colab va a acceder a su Drive

from google.colab import drive
drive.mount('/gdrive')

In [None]:
# Vamos a leer el conjunto de datos en un dataframe de pandas.

df = pd.read_csv('Dummy_Sales_Data.csv')


## **2. Análisis Exploratorio de los Datos - Limpieza - Preparación**

## **2.1 Conocimiento básico del Dataset**

### a. Tamaño del dataset

In [None]:
# Usando el método shape se puede encontrar el tamaño del conjunto de datos
df.shape

In [None]:
# ¿Cuál es el número de observaciones?
# ¿Cuál es la cantidad de atributos?

print('El número de observaciones es: ', df.shape[0])
print('El número de atributos es: ', df.shape[1])

### b. Vista preliminar

In [None]:
# Con el método head se pueden observar los primeros elementos del Dataframe

df.head()

In [None]:
# Con el método tail se pueden observar los últimos elementos del Dataframe

df.tail()

### c. Columnas y tipos de datos

In [None]:
# El método info de un dataframe permite consultar información como el número de
# registros (observaciones) y de columnas (atributos) con los tipos de datos correspondientes,
# el número de registros presentes no nulos, y el tamaño que ocupa el dataframe en memoria

df.info()

In [None]:
df.columns

In [None]:
# El método dtypes permite ver el tipo de dato de cada una de las columnas

df.dtypes

### d. Datos nulos

In [None]:
# Así se puede obsrvar la cantidad de valores nulos por columna.

df.isna().sum()

### e. Datos repetidos

In [None]:
# Así se puede obsrvar la cantidad de duplicados en todo el Dataframe.

df.duplicated().sum()

### **2.2 Análisis Univariado**

Incluye:
+ Medidas de tendencia central: media, mediana, moda.
+ Medidas de dispersión: rango, varianza, valor máximo y mínimo, cuartiles (incluyendo rango intercuartil) y desviación estándar.
+ Para variables numéricas discretas y categóricas: cantidad de valores únicos, valor con mayor frecuencia, etc.

También se pueden se pueden usar gráficos como:
+ Histogramas.
+ Para variables numéricas discretas y categóricas: gráficos de barras, gráficos circulares.

### a. Estadísticas básicas

### b. Histogramas

Los histogramas pueden ser útiles para identificar visualmente la forma como se distribuyen los valores de un atributo.

In [None]:
#Ahora generemos el histograma usando la librería seaborn.

plt.figure(figsize=(6,6))
atribute = 'Product_Category'
num_bins = 30
sns.histplot(data     = df,
             x        =atribute,
             bins     = num_bins,
             color    = 'red',
             fill     = True,
             stat     = 'count')    #'count' muestra el número de observaciones.
                                    #'frequency' muestra el número de observaciones dividida por el ancho del bin.
                                    #'density' normaliza las cuentas tal que el área del histograma es 1.
                                    #'probability' normaliza las cuentas tal que la suma de la altura de las barras es 1.

plt.xlabel(atribute) #Texto en el eje x.
plt.ylabel('Cuentas')              #Texto en el eje y.
plt.title('Histograma')             #Título del gráfico.
plt.show()

In [None]:
# Ahora vamos a mostrar el histograma de todos los atributos

num_bins = 30
for column in df.columns:
    if df[column].dtype != 'object':
        plt.figure(figsize=(6,6))
        sns.histplot(data     = df,
             x        =column,
             bins     = num_bins,
             color    = 'red',
             fill     = True,
             stat     = 'count')    #'count' muestra el número de observaciones.
                                    #'frequency' muestra el número de observaciones dividida por el ancho del bin.
                                    #'density' normaliza las cuentas tal que el área del histograma es 1.
                                    #'probability' normaliza las cuentas tal que la suma de la altura de las barras es 1.

        plt.xlabel(column) #Texto en el eje x.
        plt.ylabel('Cuentas')              #Texto en el eje y.
        plt.title('Histograma')             #Título del gráfico.

### **2.3 Análisis Bivariado**

Es una técnica estadística que se aplica a un par de variables (atributos o características) para determinar la relación
empírica entre ellas.

### a. Gráfico de dispersión (scatter plot)

In [None]:
variable_x = 'Shipping_Address'
variable_y = 'Shipping_Cost(USD)'

x_values = df[variable_x]
y_values = df[variable_y]

sns.scatterplot(x=x_values, y=y_values)

# Agregar etiquetas a los ejes
plt.xlabel(variable_x)
plt.ylabel(variable_y)

# Agregar un título al gráfico
plt.title('Gráfico de ' + variable_x + ' vs ' + variable_y)

# Mostrar el gráfico
plt.grid(True)
plt.show()

### b. Matriz de correlación

In [None]:
df_numerico = df.select_dtypes(include='number')
plt.figure(figsize=(8, 8))
ax = sns.heatmap(df_numerico.corr(),annot=True,cmap='RdYlGn',fmt='0.4f')

# **Limpieza**

In [None]:
df_clean = df.copy()

## **2.4 Detección de problemas con el conjunto de datos: valores faltantes, valores erróneos, etc.**

## **2.5 Detección de valores atípicos (Outliers)**


In [None]:

def outliers(dx, atributo):
    ax = sns.boxplot(x=dx[atributo])
    plt.show()

    arr1 = dx[atributo].values

    # Encontrar el 1st quartil
    q1 = np.quantile(arr1, 0.25)

    # Encontrar el 3rd quartil
    q3 = np.quantile(arr1, 0.75)

    # Encontrar el 2nd quartil
    med = np.median(arr1)

    # Encontrar el rango inter quartil (iqr)
    iqr = q3-q1

    # Encontrar los bigotes superior e inferior
    upper_bound = q3+(1.5*iqr)
    lower_bound = q1-(1.5*iqr)

    outliers_l = arr1[(arr1 <= lower_bound)]
    outliers_u = arr1[(arr1 >= upper_bound)]
    print('The following are the lower outliers in {} : {}'.format(atributo,outliers_l))
    print('The following are the upper outliers in {} : {}'.format(atributo,outliers_u))

    return outliers_l, outliers_u

In [None]:
for column in df_clean.columns:
    if ((df_clean[column].dtype != 'object') & (df_clean[column].dtype != 'datetime64[ns]')):
        outliers(df_clean, column)

## **2.6 Solución a los problemas encontrados**

### 1. Cambiar tipos de datos y nombres de columnas (de ser necesario)

In [None]:
df_clean.info()

In [None]:
df_clean['Fecha'] = pd.to_datetime(df_clean['OrderDate'])

In [None]:
df_clean.info()

### 2. Ordenar las filas por Fecha

In [None]:
df_clean.sort_values(by=['Fecha'], inplace=True)

df_clean.head(10)

In [None]:
## Vamos a pasar la columna fecha_hora a la primera posición del DataFrame

df_clean.insert(0, 'Fecha', df_clean.pop('Fecha'))

df_clean.info()

In [None]:
df_clean.head(10)

In [None]:
df_clean['Fecha'].values[0]

In [None]:
df_clean['Fecha'][0].year

## Análisis de Comportamiento Temporal

In [None]:
## Filtrado por fechas

# Definir el rango de fechas
fecha_inicio = '2021-07-03'
fecha_fin = '2021-08-03'

# Convertir las fechas de inicio y fin a formato datetime
fecha_inicio = pd.to_datetime(fecha_inicio)
fecha_fin = pd.to_datetime(fecha_fin)

# Filtrar el DataFrame por el rango de fechas
filtro = (df_clean['Fecha'] >= fecha_inicio) & (df_clean['Fecha'] <= fecha_fin)

df_filtrado = df_clean[filtro]

# Mostrar el DataFrame filtrado
df_filtrado.reset_index(drop=True, inplace=True)
df_filtrado.head(10)

In [None]:
df_clean ['Costo_Total(USD)']= df_clean['UnitPrice(USD)'] * df_clean['Quantity']

In [None]:
## Vamos a determinar cuál mes del DataFrame tiene la mayor temperatura

resultado = df_clean.groupby(df_clean['Fecha'])['Costo_Total(USD)'].sum()

resultado

In [None]:
resultado.index.values

In [None]:
variable_x = 'Fecha'
variable_y = 'Total_Cost(USD)'

x_values = resultado.index.values
y_values = resultado.values

plt.plot(x_values, y_values)

# Agregar etiquetas a los ejes
plt.xlabel(variable_x)
plt.ylabel(variable_y)

# Agregar un título al gráfico
plt.title('Gráfico de ' + variable_x + ' vs ' + variable_y)

# Mostrar el gráfico
plt.grid(True)
plt.show()

In [None]:
## Vamos a determinar cuál mes del DataFrame tiene la mayor temperatura

resultado = df_clean.groupby(df_clean['Fecha'].dt.month)['Costo_Total(USD)'].sum()

resultado