Pandas
Es una librería escrita como extensión de NumPy para manipulación y análisis de datos.
Fue desarrollada en 2008 con el propósito de manejar series de tiempo. Su nombre se
puede descomponer como Panel Data.
Por convención se importa con el alias pd .
Tiene soporte para cargar y guardar archivos fuera de Python.
Tiene una performance bastante aceptable al estar desarrollada bajo Cython (Uso de
Python bajo el lenguaje C).
Rápida conexión con otras librerías como NumPy , Matplotlib , SciPy y scikit-
learn .
Soporte para transformación de datos.
Manejo de datos faltantes.
Documentación: https://pandas.pydata.org/docs/.
Etc

Estructura DataFrame y Series
Series : Estructura de datos unidimensional con un conjunto de datos asociados a un
índice. Se puede crear directamente desde un array de Numpy o una lista .
DataFrame : Es una extensión de las Series . Mientras que un objecto Series contiene
dos componentes: un set de valores e índices asociados, el DataFrame contiene tres
componentes: Eje 0 (filas), Eje 1 (columnas) e índices asociados a cada fila. Su estructura
básica es el array de NumPy. Se puede crear directamente desde un diccionario .

Para una visualización correcta de DataFrames, cambiaremos print por display , una
función que carga automáticamente Jupyter (lo que estamos usando ahora para crear
nuestro código) proveniente de la librería IPython .

In [2]:
# Ejemplo de crear Series
# Recordatorio de importar pandas
import pandas as pd
pd.options.display.float_format = '{:.6f}'.format
precios = [1000, 2000, 1500, 300, 600, 500, 5000]
precios_series = pd.Series(precios)
print("lista:", precios)
print(precios_series)

lista: [1000, 2000, 1500, 300, 600, 500, 5000]
0    1000
1    2000
2    1500
3     300
4     600
5     500
6    5000
dtype: int64


In [6]:
# Ejemplo de crear DataFrame a partir de un diccionario.
diccionario = [
{"cancion": "La Bachata", "artista": "Manuel Turizo", "reproducciones": "269,343"},
{"cancion": "Te Felicito", "artista": "Shakira", "reproducciones": "101,857"},
{"cancion": "Shakira: Bzrp Mussic Sessions, Vol. 53", "artista": "Shakira", "reproducciones":"269,343"},
{"cancion": "Parcera", "artista": "Pailita", "reproducciones": "159,147"}
]
datos = pd.DataFrame(diccionario)
# cambiamos print por display
display(datos)

Unnamed: 0,cancion,artista,reproducciones
0,La Bachata,Manuel Turizo,269343
1,Te Felicito,Shakira,101857
2,"Shakira: Bzrp Mussic Sessions, Vol. 53",Shakira,269343
3,Parcera,Pailita,159147


Además, podemos asignar una columna como índice, cumpliendo la función de
Identificador dentro del conjunto de datos.
Esto facilita el filtro e identificación de filas

In [7]:
# Ejemplo de aplicar índice
datos_indice = datos.set_index("cancion")
display(datos_indice)

Unnamed: 0_level_0,artista,reproducciones
cancion,Unnamed: 1_level_1,Unnamed: 2_level_1
La Bachata,Manuel Turizo,269343
Te Felicito,Shakira,101857
"Shakira: Bzrp Mussic Sessions, Vol. 53",Shakira,269343
Parcera,Pailita,159147


Carga de datasets
pandas puede leer datos desde una gran variedad de formatos usando sus funciones de
carga.
Algunas de estas funciones son pd.read_csv , pd.read_table , pd.read_excel ,
pd.read_html y pd.read_stata .
Podemos indicar varios parámetros como columns , parse_dates e index_col .
En particular, el parámetro parse_dates debe recibir una lista con las variables que se
desee reconocer como fechas, estás deben seguir el estándar ISO 8601.
Además, accedemos a las cinco primeras entradas de las bases de datos cargadas con el
método head .
Caguemos la base de datos superstore.csv , que muestra datos sobre una famosa cadena
de Retail ubicada en Estados Unidos

In [8]:
#### sube directo desde la dirección al entorno del programa
#

In [9]:
# Ejemplo de cargar bases de datos. Con archivo "superstore.csv".
data = pd.read_csv("superstore.csv", parse_dates=["Order Date"], index_col="Order Date")
display(data.head())

Unnamed: 0_level_0,Transaction ID,Order ID,Customer ID,Product Name,Sub-Category,Category,Discount,Order Day,Order Month,Order Weekday,Order Year,Quantity,Segment,State,Profit CLP,Sales CLP
Order Date,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1,Unnamed: 15_level_1,Unnamed: 16_level_1
2016-11-03,21865-109365-13542,109365,21865,Xerox 22,Paper,Office Supplies,0.0,3,11,Thursday,2016,3,Consumer,California,7267,15139
2016-10-08,15745-162026-16405,162026,15745,Xerox 1925,Paper,Office Supplies,0.0,8,10,Saturday,2016,2,Consumer,California,21713,48251
2017-09-16,10090-136448-10461,136448,10090,Logitech 910-002974 M325 Wireless Mouse for We...,Accessories,Technology,0.2,16,9,Saturday,2017,2,Consumer,Pennsylvania,11210,37368
2015-10-12,16525-142993-23814,142993,16525,"Contico 72""H Heavy-Duty Storage System",Storage,Office Supplies,0.0,12,10,Monday,2015,2,Consumer,Washington,0,63826
2016-04-19,15280-115819-4927,115819,15280,PowerGen Dual USB Car Charger,Phones,Technology,0.2,19,4,Tuesday,2016,5,Consumer,California,10114,31119


Análisis Inicial de Datos
Es necesario para obtener una perspectiva general nuestros datos.
Obtenemos una descripción cuantitativa con el método describe() .
Visualizamos tipos de variables y datos faltantes con el método info() .
Obtenemos columnas de la base de datos con la propiedad columns .
Las dimensiones de la base de datos las obtenemos con la propiedad shape .

In [10]:
# Uso de describe
# 9.993e+03 = 9.993 * 10 ^ 3 = 9993
display(data.describe())

Unnamed: 0,Order ID,Customer ID,Discount,Order Day,Order Month,Order Year,Quantity,Profit CLP,Sales CLP
count,9993.0,9993.0,9993.0,9993.0,9993.0,9993.0,9993.0,9993.0,9993.0
mean,134437.893525,16037.562294,0.156188,15.467727,7.810067,2015.722406,3.789753,22319.731112,178997.910838
std,20252.55814,3429.03003,0.206457,8.748441,3.284598,1.123479,2.225149,182438.910151,485376.23972
min,100006.0,10015.0,0.0,1.0,1.0,2014.0,1.0,-5139733.0,346.0
25%,117156.0,13045.0,0.0,8.0,5.0,2015.0,2.0,1348.0,13457.0
50%,133613.0,16120.0,0.2,15.0,9.0,2016.0,3.0,6753.0,42426.0
75%,152072.0,18985.0,0.2,23.0,11.0,2017.0,5.0,22867.0,163491.0
max,169999.0,21925.0,0.8,31.0,12.0,2017.0,14.0,6541481.0,17629716.0


La media puede ser un buen indicador para comprender el comportamiento de una
variable numérica. Sin embargo, esta es sensible a valores extremos. Entonces ¿Qué
herramientas nos ayudan a tener una noción correcta acerca de las variables numéricas?
MEDIANA!!!! = 50%
Para ello contamos con diferentes medidas que nos proporciona pandas , como la
desviación estándar (ver imagen), mínimo, primer cuartil, segundo cuartil (mediana),
tercer cuartil y máximo

In [11]:
# Uso de info
# info no requiere de print o display
# object: string, cadena de texto o palabra
# int64: número entero
# float64: número decimal
# datetime: fecha
data.info()

<class 'pandas.core.frame.DataFrame'>
DatetimeIndex: 9993 entries, 2016-11-03 to 2016-10-21
Data columns (total 16 columns):
 #   Column          Non-Null Count  Dtype  
---  ------          --------------  -----  
 0   Transaction ID  9993 non-null   object 
 1   Order ID        9993 non-null   int64  
 2   Customer ID     9993 non-null   int64  
 3   Product Name    9993 non-null   object 
 4   Sub-Category    9993 non-null   object 
 5   Category        9993 non-null   object 
 6   Discount        9993 non-null   float64
 7   Order Day       9993 non-null   int64  
 8   Order Month     9993 non-null   int64  
 9   Order Weekday   9993 non-null   object 
 10  Order Year      9993 non-null   int64  
 11  Quantity        9993 non-null   int64  
 12  Segment         9993 non-null   object 
 13  State           9993 non-null   object 
 14  Profit CLP      9993 non-null   int64  
 15  Sales CLP       9993 non-null   int64  
dtypes: float64(1), int64(8), object(7)
memory usage: 1.3+ MB


In [12]:
# Uso de columns
nombre_columnas = data.columns
print(nombre_columnas)

Index(['Transaction ID', 'Order ID', 'Customer ID', 'Product Name',
       'Sub-Category', 'Category', 'Discount', 'Order Day', 'Order Month',
       'Order Weekday', 'Order Year', 'Quantity', 'Segment', 'State',
       'Profit CLP', 'Sales CLP'],
      dtype='object')


In [13]:
# Uso de shape
dimensiones = data.shape
print(dimensiones)

(9993, 16)


Subconjuntos de columnas en DataFrames
Contamos con cuatro formas de hacerlo:
Incorporar subsetting directamente: datos[listado_de_columnas] .
De acuerdo a su localización: datos.loc[nombre_indices, nombre_columnas] .
De acuerdo a su índice: datos.iloc[lista_con_indices_de_filas,
lista_con_indices_de_columnas] .
Eliminar columnas: datos.drop(columns=columnas_a_eliminar) .
Si seleccionamos solo una variable, obtendremos un objeto del tipo Series .

In [14]:
# Ejemplo 1: Seleccionar la columna 'Product Name'
# string cuando es solo una variable
# para dos o más variables, debe ser una lista
product_name = data["Product Name"]
print(product_name)

Order Date
2016-11-03                                             Xerox 22
2016-10-08                                           Xerox 1925
2017-09-16    Logitech 910-002974 M325 Wireless Mouse for We...
2015-10-12               Contico 72"H Heavy-Duty Storage System
2016-04-19                        PowerGen Dual USB Car Charger
                                    ...                        
2017-09-23    Belkin 8 Outlet SurgeMaster II Gold Surge Prot...
2015-12-10    Hewlett Packard 610 Color Digital Copier / Pri...
2015-01-04    GBC Standard Recycled Report Covers, Clear Pla...
2015-11-19    Hoover Commercial Soft Guard Upright Vacuum An...
2016-10-21                         GBC Personal VeloBind Strips
Name: Product Name, Length: 9993, dtype: object


In [19]:
# Ejemplo 2: Seleccionar las columnas que comiencen con la palabra 'Order'
## Directamente
# LAMBDA : permite colocar en una sentencia una función completa...o sea, en vez de es
# def cumple_condicion
# condicion1 = columna.startswith("Order")
# condicion2 = columna.startswith("ORDER")
# condicion3 = columna.startswith("order")
# return condicion1 or condicion2 or condicion3
#
cumple_condicion = lambda columna: columna.startswith("Order") or columna.startswith("ORDER") or columna.startswith("order")
#
comienza_con_order = [columna for columna in nombre_columnas if cumple_condicion(columna)]
print(comienza_con_order)
data_order = data[comienza_con_order]
display(data_order.head())

['Order ID', 'Order Day', 'Order Month', 'Order Weekday', 'Order Year']


Unnamed: 0_level_0,Order ID,Order Day,Order Month,Order Weekday,Order Year
Order Date,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
2016-11-03,109365,3,11,Thursday,2016
2016-10-08,162026,8,10,Saturday,2016
2017-09-16,136448,16,9,Saturday,2017
2015-10-12,142993,12,10,Monday,2015
2016-04-19,115819,19,4,Tuesday,2016


In [20]:
## Con loc
# FILAS, COLUMNAS
data_loc = data.loc[:, comienza_con_order]
display(data_loc.head())
# Ejemplo iloc: primeras 1000 obs. y columnas 3 a la 10
data_iloc = data.iloc[:1000, 2:10]

Unnamed: 0_level_0,Order ID,Order Day,Order Month,Order Weekday,Order Year
Order Date,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
2016-11-03,109365,3,11,Thursday,2016
2016-10-08,162026,8,10,Saturday,2016
2017-09-16,136448,16,9,Saturday,2017
2015-10-12,142993,12,10,Monday,2015
2016-04-19,115819,19,4,Tuesday,2016


In [21]:
## Eliminar columna
data_sin_order = data.drop(columns=comienza_con_order)
display(data_sin_order.head())

Unnamed: 0_level_0,Transaction ID,Customer ID,Product Name,Sub-Category,Category,Discount,Quantity,Segment,State,Profit CLP,Sales CLP
Order Date,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1
2016-11-03,21865-109365-13542,21865,Xerox 22,Paper,Office Supplies,0.0,3,Consumer,California,7267,15139
2016-10-08,15745-162026-16405,15745,Xerox 1925,Paper,Office Supplies,0.0,2,Consumer,California,21713,48251
2017-09-16,10090-136448-10461,10090,Logitech 910-002974 M325 Wireless Mouse for We...,Accessories,Technology,0.2,2,Consumer,Pennsylvania,11210,37368
2015-10-12,16525-142993-23814,16525,"Contico 72""H Heavy-Duty Storage System",Storage,Office Supplies,0.0,2,Consumer,Washington,0,63826
2016-04-19,15280-115819-4927,15280,PowerGen Dual USB Car Charger,Phones,Technology,0.2,5,Consumer,California,10114,31119


## Eliminar columna
data_sin_order = data.drop(columns=comienza_con_order)
display(data_sin_order.head())

In [22]:
# Ejemplo 1: Seleccionar las transacciones de los días
# MUY IMPORTANTE: usar método sort_index
data_ordenada = data.sort_index()
print("- Data ordenada:")
display(data_ordenada.head())
# 1, 2 y 3 de julio de 2017
print("\n- Selección de filas:")
display(data.loc["2017-07-01":"2017-07-03", :])

- Data ordenada:


Unnamed: 0_level_0,Transaction ID,Order ID,Customer ID,Product Name,Sub-Category,Category,Discount,Order Day,Order Month,Order Weekday,Order Year,Quantity,Segment,State,Profit CLP,Sales CLP
Order Date,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1,Unnamed: 15_level_1,Unnamed: 16_level_1
2014-01-03,13000-103800-24285,103800,13000,"Message Book, Wirebound, Four 5 1/2"" X 4"" Form...",Paper,Office Supplies,0.2,3,1,Friday,2014,2,Consumer,Texas,4323,12809
2014-01-04,19195-112326-2348,112326,19195,Avery 508,Labels,Office Supplies,0.2,4,1,Saturday,2014,3,Home Office,Illinois,3327,9177
2014-01-04,19195-112326-2354,112326,19195,GBC Standard Plastic Binding Systems Combs,Binders,Office Supplies,0.8,4,1,Saturday,2014,2,Home Office,Illinois,-4273,2757
2014-01-04,19195-112326-2351,112326,19195,SAFCO Boltless Steel Shelving,Storage,Office Supplies,0.2,4,1,Saturday,2014,3,Home Office,Illinois,-50443,212393
2014-01-05,18085-141817-5390,141817,18085,Avery Hi-Liter EverBold Pen Style Fluorescent ...,Art,Office Supplies,0.2,5,1,Sunday,2014,3,Consumer,Pennsylvania,3803,15214



- Selección de filas:


Unnamed: 0_level_0,Transaction ID,Order ID,Customer ID,Product Name,Sub-Category,Category,Discount,Order Day,Order Month,Order Weekday,Order Year,Quantity,Segment,State,Profit CLP,Sales CLP
Order Date,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1,Unnamed: 15_level_1,Unnamed: 16_level_1
2017-07-03,14290-129777-11063,129777,14290,"TRENDnet 56K USB 2.0 Phone, Internet and Fax M...",Accessories,Technology,0.0,3,7,Monday,2017,10,Home Office,Massachusetts,72583,201618
2017-07-03,20035-111024-10388,111024,20035,"Wirebound Four 2-3/4 x 5 Forms per Page, 400 S...",Paper,Office Supplies,0.2,3,7,Monday,2017,6,Home Office,Ohio,8740,24110
2017-07-03,14275-121503-5748,121503,14275,Hewlett-Packard Deskjet 5550 Printer,Machines,Technology,0.4,3,7,Monday,2017,3,Corporate,Texas,38751,465017
2017-07-03,15640-168109-10773,168109,15640,Okidata MB491 Multifunction Printer,Machines,Technology,0.2,3,7,Monday,2017,6,Home Office,Washington,163210,1865262
2017-07-03,15640-168109-10781,168109,15640,"Square Credit Card Reader, 4 1/2"" x 4 1/2"" x 1...",Phones,Technology,0.2,3,7,Monday,2017,1,Home Office,Washington,2101,6224
2017-07-03,21505-106747-25895,106747,21505,Luxo Professional Combination Clamp-On Lamps,Furnishings,Furniture,0.0,3,7,Monday,2017,1,Consumer,New Hampshire,20713,79666
2017-07-01,16285-148362-10274,148362,16285,"Carina Mini System Audio Rack, Model AR050B",Storage,Office Supplies,0.0,1,7,Saturday,2017,4,Home Office,Indiana,10371,345703
2017-07-03,20035-111024-10382,111024,20035,"Message Book, Wirebound, Four 5 1/2"" X 4"" Form...",Paper,Office Supplies,0.2,3,7,Monday,2017,4,Home Office,Ohio,8646,25618
2017-07-03,14275-121503-5746,121503,14275,Xerox 1891,Paper,Office Supplies,0.2,3,7,Monday,2017,7,Corporate,Texas,71988,213297
2017-07-01,16285-148362-10277,148362,16285,Fellowes PB200 Plastic Comb Binding Machine,Binders,Office Supplies,0.0,1,7,Saturday,2017,1,Home Office,Indiana,60895,132380


Además, para seleccionar filas podemos usar filtros, esto es seleccionar solo las que
cumplan cierta condición.
Algunas formas son las siguientes:
Escribir directamente la condición: datos[condición] . (para consultas más complejas)
A través del método loc: datos.loc[condicion, columnas]
Método query: datos.query("condicion") . (para consultas más sencillas)
Importante: los operadores and y or en pandas son reemplazados por & y | y las
condiciones deben estar entre parentesis.

In [23]:
# Ejemplo 1: Filtrar transacciones realizadas en el estado de New York
condicion = data["State"] == "New York"
print(condicion)
data_new_york = data[condicion]
display(data_new_york.head())

Order Date
2016-11-03    False
2016-10-08    False
2017-09-16    False
2015-10-12    False
2016-04-19    False
              ...  
2017-09-23    False
2015-12-10     True
2015-01-04    False
2015-11-19    False
2016-10-21    False
Name: State, Length: 9993, dtype: bool


Unnamed: 0_level_0,Transaction ID,Order ID,Customer ID,Product Name,Sub-Category,Category,Discount,Order Day,Order Month,Order Weekday,Order Year,Quantity,Segment,State,Profit CLP,Sales CLP
Order Date,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1,Unnamed: 15_level_1,Unnamed: 16_level_1
2015-05-08,18400-160857-16986,160857,18400,DAX Black Cherry Wood-Tone Poster Frame,Furnishings,Furniture,0.0,8,5,Friday,2015,3,Consumer,New York,23508,61864
2016-02-21,11245-168410-15888,168410,11245,9-3/4 Diameter Round Wall Clock,Furnishings,Furniture,0.0,21,2,Sunday,2016,5,Corporate,New York,22552,53695
2016-05-07,12010-128818-6714,128818,12010,Bady BDG101FRU Card Printer,Machines,Technology,0.0,7,5,Saturday,2016,5,Consumer,New York,903339,3114961
2015-12-04,20335-161718-10222,161718,20335,Global Leather Highback Executive Chair with P...,Chairs,Furniture,0.1,4,12,Friday,2015,2,Consumer,New York,53214,281724
2017-09-20,20365-100111-18197,100111,20365,"TOPS ""Important Message"" Pads, Canary, 4-1/4 x...",Paper,Office Supplies,0.0,20,9,Wednesday,2017,9,Consumer,New York,14099,29997


In [25]:
# Usando método query
# Uso de comillas dobles y simples
data_new_york_query = data.query("State == 'New York'")

In [26]:
# Ejemplo 2: Seleccionar transacciones que fueron entre navidad y año nuevo, independi
# Darse el tiempo de pensar en la condición óptima
# 1° día > 25
# 2° mes == 12
# display(data.head())
condicion1 = data["Order Day"] > 25
condicion2 = data["Order Month"] == 12
condicion = condicion1 & condicion2 # &: and
display(data[condicion])

Unnamed: 0_level_0,Transaction ID,Order ID,Customer ID,Product Name,Sub-Category,Category,Discount,Order Day,Order Month,Order Weekday,Order Year,Quantity,Segment,State,Profit CLP,Sales CLP
Order Date,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1,Unnamed: 15_level_1,Unnamed: 16_level_1
2015-12-30,12565-135580-17966,135580,12565,2300 Heavy-Duty Transfer File Systems by Perma,Storage,Office Supplies,0.000000,30,12,Wednesday,2015,3,Consumer,California,11088,58360
2016-12-30,14185-160486-27821,160486,14185,Embossed Ink Jet Note Cards,Paper,Office Supplies,0.200000,30,12,Friday,2016,4,Consumer,Florida,19686,56244
2015-12-31,11035-120901-18113,120901,11035,Stockwell Push Pins,Fasteners,Office Supplies,0.200000,31,12,Thursday,2015,2,Consumer,Texas,441,2716
2015-12-28,13960-119697-512,119697,13960,Lenovo 17-Key USB Numeric Keypad,Accessories,Technology,0.200000,28,12,Monday,2015,2,Consumer,Pennsylvania,1059,42352
2014-12-27,15490-106334-13749,106334,15490,Bevis Steel Folding Chairs,Chairs,Furniture,0.200000,27,12,Saturday,2014,3,Consumer,California,17933,179331
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
2016-12-31,16555-160395-3537,160395,16555,"Crayola Anti Dust Chalk, 12/Pack",Art,Office Supplies,0.000000,31,12,Saturday,2016,2,Corporate,Nevada,1276,2835
2017-12-28,14665-136539-2910,136539,14665,Stanley Bostitch Contemporary Electric Pencil ...,Art,Office Supplies,0.200000,28,12,Thursday,2017,2,Consumer,Texas,2116,21157
2014-12-31,16375-133592-23342,133592,16375,Xerox 1917,Paper,Office Supplies,0.000000,31,12,Wednesday,2014,4,Home Office,Rhode Island,71607,152355
2014-12-31,11815-127383-13759,127383,11815,Staple envelope,Envelopes,Office Supplies,0.200000,31,12,Wednesday,2014,2,Corporate,Texas,13993,38601


Creación y edición de variables
En ciertas ocaciones, crear columnas a través de las que ya tenemos disponibles nos ayuda
a comprender de mejor forma nuestro conjunto de datos.
Aplicar nuestros conocimientos previos es de suma relevancia para crear columnas con
información útil para el análisis.
El objeto tipo Series se encuentra vectorizado, lo que nos evita usar loops u otras
funciones más compejas cuando la edición o creación de variables es sencilla.
Ejemplos: Transformar dólares a pesos chilenos o viceversa, crear una columna que me
indique si la fecha es víspera de las fiestas de fin de año, variable que me índique si es
feriado o fin de semana, o si el monto de la venta es inferior a lo esperado.
Función útil para crear categorías:
import numpy as np
datos["nombre_columna_nueva"] = np.where(condicion, valor_si_True,
valor_si_False)

In [27]:
# Ejemplo 1: Convertir pesos chilenos a dólares (1 USD = 930 CLP)
# Sobre-escribimos - Recordar cambiar el nombre para que tenga sentido posteriormente
data["Profit CLP"] = data["Profit CLP"] / 930
data["Sales CLP"] = data["Sales CLP"] / 930

In [28]:
display(data.head())

Unnamed: 0_level_0,Transaction ID,Order ID,Customer ID,Product Name,Sub-Category,Category,Discount,Order Day,Order Month,Order Weekday,Order Year,Quantity,Segment,State,Profit CLP,Sales CLP
Order Date,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1,Unnamed: 15_level_1,Unnamed: 16_level_1
2016-11-03,21865-109365-13542,109365,21865,Xerox 22,Paper,Office Supplies,0.0,3,11,Thursday,2016,3,Consumer,California,7.813978,16.278495
2016-10-08,15745-162026-16405,162026,15745,Xerox 1925,Paper,Office Supplies,0.0,8,10,Saturday,2016,2,Consumer,California,23.347312,51.882796
2017-09-16,10090-136448-10461,136448,10090,Logitech 910-002974 M325 Wireless Mouse for We...,Accessories,Technology,0.2,16,9,Saturday,2017,2,Consumer,Pennsylvania,12.053763,40.180645
2015-10-12,16525-142993-23814,142993,16525,"Contico 72""H Heavy-Duty Storage System",Storage,Office Supplies,0.0,12,10,Monday,2015,2,Consumer,Washington,0.0,68.630108
2016-04-19,15280-115819-4927,115819,15280,PowerGen Dual USB Car Charger,Phones,Technology,0.2,19,4,Tuesday,2016,5,Consumer,California,10.875269,33.46129


In [30]:
# Ejemplo 2: Crear una variable que sea 'Yes' si la fecha es fin de semana, 'No' en caso contrario
import numpy as np
data["Weekend"] = np.where(data["Order Weekday"].isin(["Saturday", "Sunday"]), "Yes","No")
display(data.head())

Unnamed: 0_level_0,Transaction ID,Order ID,Customer ID,Product Name,Sub-Category,Category,Discount,Order Day,Order Month,Order Weekday,Order Year,Quantity,Segment,State,Profit CLP,Sales CLP,Weekend
Order Date,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1,Unnamed: 15_level_1,Unnamed: 16_level_1,Unnamed: 17_level_1
2016-11-03,21865-109365-13542,109365,21865,Xerox 22,Paper,Office Supplies,0.0,3,11,Thursday,2016,3,Consumer,California,7.813978,16.278495,No
2016-10-08,15745-162026-16405,162026,15745,Xerox 1925,Paper,Office Supplies,0.0,8,10,Saturday,2016,2,Consumer,California,23.347312,51.882796,Yes
2017-09-16,10090-136448-10461,136448,10090,Logitech 910-002974 M325 Wireless Mouse for We...,Accessories,Technology,0.2,16,9,Saturday,2017,2,Consumer,Pennsylvania,12.053763,40.180645,Yes
2015-10-12,16525-142993-23814,142993,16525,"Contico 72""H Heavy-Duty Storage System",Storage,Office Supplies,0.0,12,10,Monday,2015,2,Consumer,Washington,0.0,68.630108,No
2016-04-19,15280-115819-4927,115819,15280,PowerGen Dual USB Car Charger,Phones,Technology,0.2,19,4,Tuesday,2016,5,Consumer,California,10.875269,33.46129,No


Cuando las transformaciones necesarias son algo más complejas, es de ayuda el método
apply , que recibe como argumento una función predefinida o anónima.
datos[columnas] = datos[columnas].apply(funcion)

In [32]:
# Ejemplo: Categorizar variable "Discount" de acuerdo a la siguiente función.
def descuento_cat(valor):
  if valor <= 0.2:
    return "0-20%"
  elif valor <= 0.4:
    return "20-40%"
  elif valor <= 0.6:
    return "40-60%"
  elif valor <= 0.8:
    return "60-80%"
  else:
    return "80-100%"
data["Discount Cat"] = data["Discount"].apply(descuento_cat)
display(data.head(20)) # Veamos 20 primeros valores

Unnamed: 0_level_0,Transaction ID,Order ID,Customer ID,Product Name,Sub-Category,Category,Discount,Order Day,Order Month,Order Weekday,Order Year,Quantity,Segment,State,Profit CLP,Sales CLP,Weekend,Discount Cat
Order Date,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1,Unnamed: 15_level_1,Unnamed: 16_level_1,Unnamed: 17_level_1,Unnamed: 18_level_1
2016-11-03,21865-109365-13542,109365,21865,Xerox 22,Paper,Office Supplies,0.0,3,11,Thursday,2016,3,Consumer,California,7.813978,16.278495,No,0-20%
2016-10-08,15745-162026-16405,162026,15745,Xerox 1925,Paper,Office Supplies,0.0,8,10,Saturday,2016,2,Consumer,California,23.347312,51.882796,Yes,0-20%
2017-09-16,10090-136448-10461,136448,10090,Logitech 910-002974 M325 Wireless Mouse for We...,Accessories,Technology,0.2,16,9,Saturday,2017,2,Consumer,Pennsylvania,12.053763,40.180645,Yes,0-20%
2015-10-12,16525-142993-23814,142993,16525,"Contico 72""H Heavy-Duty Storage System",Storage,Office Supplies,0.0,12,10,Monday,2015,2,Consumer,Washington,0.0,68.630108,No,0-20%
2016-04-19,15280-115819-4927,115819,15280,PowerGen Dual USB Car Charger,Phones,Technology,0.2,19,4,Tuesday,2016,5,Consumer,California,10.875269,33.46129,No,0-20%
2017-08-12,12895-152310-25048,152310,12895,Hewlett Packard 310 Color Digital Copier,Copiers,Technology,0.0,12,8,Saturday,2017,1,Consumer,Washington,75.360215,251.201075,Yes,0-20%
2017-01-29,21790-139304-15141,139304,21790,Acme Office Executive Series Stainless Steel T...,Supplies,Office Supplies,0.0,29,1,Sunday,2017,1,Consumer,California,1.865591,7.176344,Yes,0-20%
2017-01-01,15250-151750-24566,151750,15250,GBC Instant Report Kit,Binders,Office Supplies,0.8,1,1,Sunday,2017,5,Consumer,Texas,-8.126882,5.41828,Yes,60-80%
2015-05-08,18400-160857-16986,160857,18400,DAX Black Cherry Wood-Tone Poster Frame,Furnishings,Furniture,0.0,8,5,Friday,2015,3,Consumer,New York,25.277419,66.52043,No,0-20%
2016-05-20,14125-146010-12052,146010,14125,GBC Durable Plastic Covers,Binders,Office Supplies,0.7,20,5,Friday,2016,7,Home Office,Colorado,-27.221505,34.026882,No,60-80%


Cambiemos los nombres de las variables "Profit CLP" y "Sales CLP" para una mayor
concordancia con la transformación a dólares.

Usamos el método rename , que recibe un diccionario en el parámetro columns .
datos.rename(columns=diccionario)

In [33]:
# Ejemplo de usar rename
nuevos_nombres = {
"Profit CLP": "Profit",
"Sales CLP" : "Sales"
}
# Creamos variable para conservar cambios
data = data.rename(columns=nuevos_nombres)
display(data.head())

Unnamed: 0_level_0,Transaction ID,Order ID,Customer ID,Product Name,Sub-Category,Category,Discount,Order Day,Order Month,Order Weekday,Order Year,Quantity,Segment,State,Profit,Sales,Weekend,Discount Cat
Order Date,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1,Unnamed: 15_level_1,Unnamed: 16_level_1,Unnamed: 17_level_1,Unnamed: 18_level_1
2016-11-03,21865-109365-13542,109365,21865,Xerox 22,Paper,Office Supplies,0.0,3,11,Thursday,2016,3,Consumer,California,7.813978,16.278495,No,0-20%
2016-10-08,15745-162026-16405,162026,15745,Xerox 1925,Paper,Office Supplies,0.0,8,10,Saturday,2016,2,Consumer,California,23.347312,51.882796,Yes,0-20%
2017-09-16,10090-136448-10461,136448,10090,Logitech 910-002974 M325 Wireless Mouse for We...,Accessories,Technology,0.2,16,9,Saturday,2017,2,Consumer,Pennsylvania,12.053763,40.180645,Yes,0-20%
2015-10-12,16525-142993-23814,142993,16525,"Contico 72""H Heavy-Duty Storage System",Storage,Office Supplies,0.0,12,10,Monday,2015,2,Consumer,Washington,0.0,68.630108,No,0-20%
2016-04-19,15280-115819-4927,115819,15280,PowerGen Dual USB Car Charger,Phones,Technology,0.2,19,4,Tuesday,2016,5,Consumer,California,10.875269,33.46129,No,0-20%


Resumen de variables
Una forma de representar variables es a través de estadísticos de resumen.
Estos incluyen medias, varianzas, percentiles, etc.
Al igual que en NumPy, podemos acceder a distintos métodos directamente desde una
variable seleccionada.
Podemos cálcular varios resúmenes a través del método agg (aggregate), que puede
recibir como argumento una lista con las estadísticas a calcular.
datos["columna"].estadistica()
datos["columna"].agg(["estadística1", "estadística2", "etc"])
datos.agg({
"columna1": ["estadística1", "estadística2", "etc"],
"columna2": ["estadística3", "estadística4", "etc"]
})

In [34]:
# Ejemplo 1: Calcular media y desviación estandar de la variable profit
## FORMA 1
print("media:", data["Profit"].mean())
print("std:", data["Profit"].std())
## FORMA 2
media_y_std = data["Profit"].agg(["mean", "std", "median", "var"])
print("\nmedia y std:\n", media_y_std)

media: 23.99971087287983
std: 196.17087113019446

media y std:
 mean        23.999711
std        196.170871
median       7.261290
var      38483.010680
Name: Profit, dtype: float64


In [35]:
# Ejemplo 2: Calcular media y mediana de las variables que incluyan divisas.
resumenes = {
"Profit": ["mean", "median"],
"Sales": ["mean", "median", "std"]
}
media_mediana = data.agg(resumenes)
print(media_mediana)

          Profit      Sales
mean   23.999711 192.470872
median  7.261290  45.619355
std          NaN 521.909935


También podemos observar estadísticas por grupo.
Esto es ver el comportamiento de cada categoría de una variable respecto a las estadísticas
indicadas.
Para llevar esto a cabo, usamos el método groupby , que recibe como argumento una lista
con las variables a agrupar

-Luego de esto, podemos realizar los resúmenes de variables necesarios.

In [36]:
# Ejemplo 1: Agrupar por variable 'Category' y calcular media de Profit
print(data.groupby(["Category"]).agg({"Profit": "mean"}))
print("")
print(data.groupby(["Category"])["Profit"].mean()) # Alternativa

                   Profit
Category                 
Furniture        7.292714
Office Supplies 17.021175
Technology      65.944210

Category
Furniture          7.292714
Office Supplies   17.021175
Technology        65.944210
Name: Profit, dtype: float64


In [37]:
# Ejemplo 2: Cálcular media de Sales según Estado y Categoría
display(data.groupby(["State", "Category"]).agg({"Sales": "mean"}))

Unnamed: 0_level_0,Unnamed: 1_level_0,Sales
State,Category,Unnamed: 2_level_1
Alabama,Furniture,482.054643
Alabama,Office Supplies,97.903943
Alabama,Technology,536.457143
Arizona,Furniture,231.135001
Arizona,Office Supplies,65.972712
...,...,...
West Virginia,Office Supplies,149.743011
Wisconsin,Furniture,451.565255
Wisconsin,Office Supplies,95.741591
Wisconsin,Technology,294.691140


Frecuencias dentro de variables
Esto es útil para observar el comportamiento de las categorías pertenecientes a una
variable.
Encontramos la frecuencia absoluta y relativa.
Frecuencia absoluta: Es una medida estadística que nos indica la cantidad de veces que
ocurren ciertos eventos.
Frecuencia relativa: Es el cuociente entre la frecuencia absoluta y la cantidad de
observaciones disponibles (en el contexto de una base de datos).
Para calcular frecuencias absolutas, usamos el método value_counts de una variable
seleccionada.
Para calcular frecuencias relativas, además debemos especificar el argumento "%" o
'"normalize=true"'

In [38]:
# Ejemplo 1: Calcular frecuencias de la variable 'Category'.
# Frecuencia absoluta
print(data.value_counts("Category"))
print("")
print(data["Category"].value_counts())

Category
Office Supplies    6026
Furniture          2120
Technology         1847
dtype: int64

Office Supplies    6026
Furniture          2120
Technology         1847
Name: Category, dtype: int64


In [40]:
# Frecuencia relativa
print(data.value_counts("Category", "%"))
print("")
print(data["Category"].value_counts("%").apply(lambda x: str(round(x * 100, 2)) + "%"))

Category
Office Supplies   0.603022
Furniture         0.212149
Technology        0.184829
dtype: float64

Office Supplies     60.3%
Furniture          21.21%
Technology         18.48%
Name: Category, dtype: object


In [41]:
data.value_counts("Category", "%").to_frame("porcentajes")

Unnamed: 0_level_0,porcentajes
Category,Unnamed: 1_level_1
Office Supplies,0.603022
Furniture,0.212149
Technology,0.184829


In [42]:
data.value_counts("Category", "%").to_frame().to_excel("porcentajes.xlsx")