# <span style='color:blue'> <center>Knowledge Discovery in Data</center> </span>
## **Capítulo 1.** Manipulación de Datos con Pandas
#### by **Ivan Alducin**
<p><img src="https://cdn.datafloq.com/cache/blog_pictures/878x531/what-does-clustering-in-data-mining-mean.jpg" width="1250"></p>

## Explorando un DataFrame
<p>Cuando tenemos un nuevo DataFrame para trabajar, lo primero que debemos hacer es explorarlo y ver qué contiene.</p>

In [None]:
# Importar pandas


In [None]:
# Importar el archivo de sales a un DataFrame


In [None]:
# Imprimir las primeras 5 lineas de mi DataFrame


In [None]:
# Imprimir el tamaño (#filas, #columnas) de mi DataFrame


## Partes un DataFrame
<p>Para comprender mejor la estructura de un DataFrame, es útil saber que constan de tres componentes, almacenados como atributos:
<ul>
<li><code>.values</code> muestra una matriz de valores NumPy bidimensional</li>
<li><code>.columns</code> muestra índice de columnas: los nombres de las columnas.</li>
<li><code>.index</code> muestra índice para las filas: números de fila o nombres de fila.</li>
</ul>
</p>

In [None]:
# Imprimir los valores de mi DataFrame


In [None]:
# Imprimir el nombre de mis campos (columnas) de mi DataFrame


In [None]:
# Imprimir el indice de mi DataFrame


## Ordenando filas de un DataFrame
<p>Encontrar datos interesantes en un DataFrame suele ser más fácil si cambiamos el orden de las filas. Podemos ordenar las filas pasando un nombre de columna al método <code>.sort_values()</code>. </p>

In [None]:
# Ordena el DataFrame por el monto de venta semanal


In [None]:
# Ordena el DataFrame por el monto de venta semanal de forma descendente


In [None]:
# Ordena el Dataframe por depa y venta semanal de forma descendente


## Filtrando un DataFrame
<p>Una gran parte del proceso de análisis de datos consiste en encontrar qué partes de un conjunto de datos son interesantes. Una de las técnicas más simples para esto es encontrar un subconjunto de filas que coincida con algunos criterios.

In [None]:
# Filtra las filas donde las ventas sean negativas, ¿Porque crees que haya ventas negativas?


In [None]:
# Filra las filas de las tiendas tipo A


In [None]:
# Filra las filas de las tiendas tipo A y C


In [None]:
# Filra las filas de las tiendas 1, 2, 10, 20 y 31



## Agregando nuevas columnas
<p>Por lo general los datos que tenemos no son suficientes para nuestro análisis, siempre necesitamos agregar nuevas columnas o campos calculados a nuestro DataFrame. Esto en el campo de la ciencia de datos se le conoce como <i>feature engineering</i>.
Se pueden crear nuevas columnas desde cero, pero también es común derivarlas de otras, por ejemplo, agregando campos calculados con base en otro existente o cambiando su escala de unidades o valor.

In [None]:
# Crear una columna que calcule el precio de venta + IVA


## Funciones estadísticas
<p><i>Summary statistics</i> o la estadística de resumen es el conjunto de medidas cuantitativas que nos permiten visualizar el comportamiento de una variable. Por ejemplo, la desviación media, mediana, mínimo, máxima y estándar son estadísticas de resumen. El cálculo de estas nos permite tener una mejor comprensión y entendimiento de nuestro conjunto de datos, incluso si es muy grande.</p>

In [None]:
# Calcular el promedio de las venta semanales


In [None]:
# Calcular la mediana de las ventas semanales


In [None]:
# Imprimir la estadística descriptiva básica de mi DataFrame


In [None]:
# Calcular la última fecha de venta 


In [None]:
# Calcular la fecha en la que tuve mi primer venta


## Multiples funciones
<p>El método <code>.agg()</code> nos permite aplicar nuestras propias funciones personalizadas a un DataFrame, así como también aplicar funciones a más de una columna a la vez, lo que hace que los cálculos sean súper eficientes. Lo anterior se hace usando la siguiente nomenclatura: <code>df['columna'].agg([funcion1, funcion2])</code>

In [None]:
# Calcula la media para las ventas y la temperatura


In [None]:
# Agrega la mediana y el máximo al cálculo anterior


In [None]:
# Crea un nuevo DataFrame que contenga las ventas de la tienda 1 y el departamento 1
sales_1_1 = 

In [None]:
# Ordena por fecha
____

# Crea un nuevo campo calculando la venta acumulada semanal
sales_1_1['cum_weekly_sales'] = 

# Crea un nuevo campo campo calculado con la venta acumulada máxima
sales_1_1['cum_max_sales'] = 

# Vamos a ver los campos que acabas de crear
print(sales_1_1[["date", "weekly_sales", "cum_weekly_sales", "cum_max_sales"]])

## Eliminando duplicados de un DataFrame
<p>Eliminar duplicados es una habilidad esencial para obtener análisis precisos porque, a menudo, no deseamos tener valores repetidos dentro de nuestros cálculos.</p>

In [None]:
# Elimina los duplicados de las combinaciones store/type
store_types = 

In [None]:
# Elimina los duplicados de las combinaciones store/department y ordena por venta semanal
store_depts = 

In [None]:
# Filtra las filas en donde las ventas hayan sido en días festivos ('is_holiday') y borra los duplicados de las fechas
holiday_dates =

## Conteo y proporción
<p>Contar es una excelente manera de obtener una descripción general de nuestro conjunto datos y poder analizar sobre todo nuestras categorías top o en su defecto las que menor proporción tienen con respecto una variable</p>

In [None]:
# Contar el número de transacciones de cada tipo de tiendas


In [None]:
# Dar la proporcion del cálculo anterior


## Porcentaje de ventas
<p>Walmart distingue tres tipos de tiendas: "supercenters", "discount stores" y "neighborhood markets", codificados en este conjunto de datos como tipo "A", "B" y "C". En este ejercicio, vamos a calcular las ventas totales realizadas en cada tipo de tienda, sin utilizar <code>.groupby()</code>.</p>

In [None]:
# Calcular el total de ventas semanales
sales_all = 

# Calcular las ventas semanales para supercenters
sales_A = 

# Calcular las ventas semanales para discount stores
sales_B = 

# Calcular las ventas semanales para neighborhood markets
sales_C = 

# Calcular la proporción de venta por tipo de tienda
sales_propn_by_type = 

## Group by
<p> Podemos ahorrarnos mucho código usando el método <code>.groupby</code> como veremos a continuación</p>

In [None]:
# Calcular las ventas por tipo de tienda usando .groupby()
sales_by_type = 

In [None]:
# Calcular la proporción de ventas por tipo de tienda
sales_prop = ____ / ____

# Resultado
print("La proporcion de venta por tienda es: " ____)

In [None]:
# Para cada tipo de tienda calcular la venta mínima, máxima, media y la mediana


In [None]:
# Para cada tipo de tienda, agrega la temperatura y calcula el minimo, maximo, media y mediana


## Pivot Tables
<p> Las tablas dinámicas son la forma estándar de agregar datos en hojas de cálculo. En pandas, las tablas dinámicas son esencialmente otra forma de realizar cálculos agrupados. Es decir, el método <code>.pivot_table()</code> es justamente una alternativa a <code>.groupby()</code>.</p>

In [None]:
# Calcular el promedio de ventas semanales por tipo de tienda con el metodo .pivot_table() 


In [None]:
# Calcular el promedio y la mediana de ventas semanales por tipo de tienda 


In [None]:
# Calcular el promedio de ventas semanales por tipo de tienda y departamento


In [None]:
# Calcular el promedio de ventas semanales por tipo de tienda y departamento, reemplazando los valores nulos con 0


In [None]:
# Calcular el promedio de ventas semanales por tipo de tienda y departamento, reemplazando los valores nulos con 0 y sumando las filas y columnas


In [None]:
# Exporta tu resultado a un csv
