# Pandas para manipulación y análisis de datos

Esta construida sobre la base de Numpy, las dos estructuras principales que ofrece pandas son:
- Series
- Dataframes
Si buscas roles como científico de datos, analista, ingeniero de datos o incluso bussiness inteligence uno de los skills que necesitas es el uso de pandas, ademas lo puedes aplicar a un proyecto que añadirás a tu portafolio, puedes usar datasets liberados, estos los podemos encontrar en:
- Kaggle
- Repositorio de Machine Learning UCI

En este caso usaremos el DataSet Online Retail donde identificaremos los productos más vendidos, analizar el comportamiento de clientes y picos de ventas.


In [2]:
import pandas as pd
path = '/Users/hectorastudillo/py-proyects/data-analysis/pandas/Online_Retail.csv'
retail_data = pd.read_csv(path, encoding='latin1') #Se agregó un argumento de más que corrige la codificación del archivo pues por defecto en este caso NO esta en utf-8

#retail_data = pd.read_csv(path, encoding='utf-8', errors='ignore')

print(type(retail_data))
#Estamos trabajando con una clase propia de la libreria
print('Información del CSV:\n',retail_data)

<class 'pandas.core.frame.DataFrame'>
Información del CSV:
        InvoiceNo StockCode                          Description  Quantity  \
0         536365    85123A   WHITE HANGING HEART T-LIGHT HOLDER         6   
1         536365     71053                  WHITE METAL LANTERN         6   
2         536365    84406B       CREAM CUPID HEARTS COAT HANGER         8   
3         536365    84029G  KNITTED UNION FLAG HOT WATER BOTTLE         6   
4         536365    84029E       RED WOOLLY HOTTIE WHITE HEART.         6   
...          ...       ...                                  ...       ...   
541904    581587     22613          PACK OF 20 SPACEBOY NAPKINS        12   
541905    581587     22899         CHILDREN'S APRON DOLLY GIRL          6   
541906    581587     23254        CHILDRENS CUTLERY DOLLY GIRL          4   
541907    581587     23255      CHILDRENS CUTLERY CIRCUS PARADE         4   
541908    581587     22138        BAKING SET 9 PIECE RETROSPOT          3   

          Invoi

Si bien nuestra información esta en formato CSV, tambien la podemos presentar en formato de Excel o JSON...
- data_excel = pd.read_excel(path)
- data_json = pd.read_json(path)

# Consejo:
Cuando te estes postulando a un puesto de trabajo trata de identificar que tipo de problemas se quiere resolver, entonces cuando estemos desarrollando nuestro portafolio debemos de seleccionar a un set de datos similar a los problemas que se enfrenta la empresa.

# DataFrames
Veremos como crear dataframes con pandas. 
Un dataframe en pandas es una estructura de datos bidimensional similar a una tabla en una base de datos o archivo excel, contiene columnas y filas en las que cada columna puede contener un tipo de dato diferente lo que lo hace ideal para el análisis de datos.
Los dataframes son el corazón de Pandas.
Crearemos un dataframe desde el csv que vamos a utilizar que es el Online_retail.csv...
Primero veremos el método HEAD de pandas que me trae un resumen de toda la información que tengo.

In [None]:
print(retail_data.head())
#Esta es una primera manera de crear un dataframe leyendo desde un csv

In [6]:
import numpy as np

#Crearemos un array bidimensional
data = np.array([[1,2,3], [4,5,6], [7,8,9]])
df_from_array = pd.DataFrame(data, columns=['A','B','C']) #Le pasamos de donde obtendrá la infromación, el nombre de las columnas que tendrá nuestro dataframe, esto claramente respecto a la dimensión que tiene nuestra matriz (dimensión 2 array)
print('DataFrame creado con Numpy (array/matriz) y Pandas(DataFrame/columnas):\n',df_from_array)

DataFrame creado con Numpy (array/matriz) y Pandas(DataFrame/columnas):
    A  B  C
0  1  2  3
1  4  5  6
2  7  8  9


# Los dataframes tambien pueden ser creados a partir de una lista o diccionario...

In [10]:
# Tendremos 3 columnas, id, name y age
data = [[1, 'Jhon', 23], [2, 'Ana', 24]]
df_from_list = pd.DataFrame(data, columns=['ID', 'Name', 'Age'])
print('DataFrame from a list:\n', df_from_list)

#Con diccionarios
#Igual tengo una lista pero ahora tendremos una clave o llave que directamente le indicaré con su valor, el primero es ID, luego el nombre con su respectivo valor y edad con su respectivo valor...
data = [{'ID': 1,
         'Name': 'Jhon',
         'Age': 21},
        {'ID': 2,
         'Name': 'Ana',
         'Age': 24}]
dt_from_dict = pd.DataFrame(data) #Las columnas ya las especificamos dentro del diccionario directamente
print('Dataframe from a Dictionary:\n', dt_from_dict)

#Ahora, puede haber el caso en el que las claves son el nombre de cada columna y cada valor que va a ir acompañado de la clave va a ser una lista...

data = {'ID': [1,2,3], 
        'Name': ['Jhon', 'Ana', 'Mike'],
        'Age': [22,24,21]}
df_from_dict_list = pd.DataFrame(data)
print('DataFrame from a Dict(columns) with List(rows):\n', df_from_dict_list)

DataFrame from a list:
    ID  Name  Age
0   1  Jhon   23
1   2   Ana   24
Dataframe from a Dictionary:
    ID  Name  Age
0   1  Jhon   21
1   2   Ana   24
DataFrame from a Dict(columns) with List(rows):
    ID  Name  Age
0   1  Jhon   22
1   2   Ana   24
2   3  Mike   21


En pandas como bien mencionamos tenemos la herramienta principal que son los dataframes QUE SON DATOS BIDIMENSIONALES, LAS MATRICES SON BIDIMENSIONALES, pero en este caso nos referimos a tablas sin embargo, podemos descomponer dataframes en lo que sería una serie

# Series
Cada serie corresponde a una columna que equivaldría a un dato uni-dimensional, tendriamos una serie ID, nombre y edad, imagina que son las listas en el último código que hicimos...

In [11]:
#Partimos desde un diccionario que tendrá como información de filas una serie...
data = {'ID': pd.Series([1,2,3]), 
        'Name': pd.Series(['Jhon', 'Ana', 'Mike']),
        'Age': pd.Series([22,24,21])}

df_from_series_dict = pd.DataFrame(data)
print('DataFrame from Series in a Dict:\n', df_from_series_dict)

DataFrame from Series in a Dict:
    ID  Name  Age
0   1  Jhon   22
1   2   Ana   24
2   3  Mike   21


Si usas Google Colab, puedes acceder a tus archivos para su lectura sin necesidad de cargarlo manualmente al contenido de Colab con el sigueinte código a partir de Google Drive:

from google.colab import drive

drive.mount('/content/drive')
path = "/content/drive/My_drive/online_retail.csv"

data = pd.read_csv(path)
print(data.head())

Comprender y manipular las estructuras es un proceso fundamental. El núcleo de numpy son los arrays mientras que en pandas son las series y los dataframes. Estas estructuras permiten manejar los datos de manera eficiente y realizar análisis complejos.

Una serie en pandas es una estructura uni-dimensional que puede almacenar datos de cualquier tipo, similar a una columna de una tabla.

Los dataframes son una estructura bidimensional similar a una tabla en una base de datos, csv o una hoja de excel.

- Cuando tenemos la lectura de la información y tenemos el tipo de dato bidimensional estamos tratando con dataframes.

- Cuando estamos tratando simplemente con columnas que van a ser datos unidimensionales estamos habalando de series 

In [3]:
retail_data = pd.read_csv(path, encoding='latin1')

# Primero capturamos el nombre de las columnas que podemos hacer para el análisis
columns_names = retail_data.columns
print('Columnas de Online_ratil.csv:\n', columns_names)

#Para preguntar por la dimensión... preguntamos el numero de filas que tenemos y el numero de las columnas...
num_rows, num_columns = retail_data.shape #Este me retorna o me da 2 elementos como respuesta, por ende creamos dos variables 
print('Número de filas: ', num_rows)
print('Número de columnas: ', num_columns)

Columnas de Online_ratil.csv:
 Index(['InvoiceNo', 'StockCode', 'Description', 'Quantity', 'InvoiceDate',
       'UnitPrice', 'CustomerID', 'Country'],
      dtype='object')
Número de filas:  541909
Número de columnas:  8


In [7]:
daily_sales = retail_data['Quantity'] #Corresponde al nombre de la columna
print('Fila que corresponde a la columna "Cuantity":\n', daily_sales)

#PUEDO ESPECIFICAR ADEMÁS UNA FILA EN CONCRETO
print('Fila 2 que corresponde a la columna "Cuantity":\n', daily_sales[2])

Fila que corresponde a la columna "Cuantity":
 0          6
1          6
2          8
3          6
4          6
          ..
541904    12
541905     6
541906     4
541907     4
541908     3
Name: Quantity, Length: 541909, dtype: int64
Fila 2 que corresponde a la columna "Cuantity":
 8


# Descripción estadística con el método describe()
En nuestro dataframe tambien podemos obtener una descripción estadística de cada una de las columnas que tienen información CUANTITATIVA, asi como en R, si te das cuenta son procesos que se pueden realizar en R... media, desviación estandar aplicada a una columan lo qie tengo que haces es especificar el nombre del método

In [10]:
summary = retail_data.describe()
print('El resumen de Online Retail estadístico es:\n', summary)
#Me dará unicamente 3 columnas ya que son las únicas en las que tenemos números


daily_sales = retail_data['Quantity'] 
#En caso de querer ver la infromación de cada una de las columnas hacemos lo siguiente:
mean_value_Cuantity = daily_sales.mean() #Recuerda que daily sales corresponde a una columna, por ende nos dará el promedio de esa columna que especificamos.
print('La media de la columna especificada "Cuantity" es:\n', mean_value_Cuantity)

#Para obtener la suma usamos variable.sum(), para la media variable.median()

#Vamos a hacer un conteo de valores de la columna Cuantity...
count_values = daily_sales.count()
print('El conteo de la columna Cuantity es:\n', count_values)

El resumen de Online Retail estadístico es:
             Quantity      UnitPrice     CustomerID
count  541909.000000  541909.000000  406829.000000
mean        9.552250       4.611114   15287.690570
std       218.081158      96.759853    1713.600303
min    -80995.000000  -11062.060000   12346.000000
25%         1.000000       1.250000   13953.000000
50%         3.000000       2.080000   15152.000000
75%        10.000000       4.130000   16791.000000
max     80995.000000   38970.000000   18287.000000
La media de la columna especificada "Cuantity" es:
 9.55224954743324
El conteo de la columna Cuantity es:
 541909


# Valores nulos
Analiza el siguiente caso de suma y conteo, es claro que cuando es una suma lo tomará el none por un 0 y cuando es un conteo este no tiene valor...

In [12]:
import pandas as pd
daily_sales = pd.Series([10,20,None,40,50])
#Suma
total_sum = daily_sales.sum()
print('Suma con valor None es: ', total_sum)
#Conteo
count_values = daily_sales.count()
print('El conteo de la Serie dada con valor None es: ', count_values)


Suma con valor None es:  120.0
El conteo de la Serie dada con valor None es:  4


# Método GET
Vamos a extraer un número o filas que vamos a especificar donde por defecto tendrémos que son 5...

# Consejo:
Cuando se nos da entonces información nueva, un DataFrame que analizar lo recomendable es acceder a:
- Conocer los encabezados, obtienes los primeras 5 filas con head()
- Tener un resumen estadístico con describe
- Abundar en cada columna

In [13]:
#Primeras 5 filas
retail_data.head()

#Para obtener las primeras 8...
retail_data.head(8)


Unnamed: 0,InvoiceNo,StockCode,Description,Quantity,InvoiceDate,UnitPrice,CustomerID,Country
0,536365,85123A,WHITE HANGING HEART T-LIGHT HOLDER,6,12/1/10 8:26,2.55,17850.0,United Kingdom
1,536365,71053,WHITE METAL LANTERN,6,12/1/10 8:26,3.39,17850.0,United Kingdom
2,536365,84406B,CREAM CUPID HEARTS COAT HANGER,8,12/1/10 8:26,2.75,17850.0,United Kingdom
3,536365,84029G,KNITTED UNION FLAG HOT WATER BOTTLE,6,12/1/10 8:26,3.39,17850.0,United Kingdom
4,536365,84029E,RED WOOLLY HOTTIE WHITE HEART.,6,12/1/10 8:26,3.39,17850.0,United Kingdom


# ILOC y LOC
SELECCIÓN DE DATOS.

# iloc
Nos ayuda a extraer la información del dataframe especificando el índice que eso representa la i

# loc
Accede a la información especificando la etiqueta y esto lo haremos dando las filas y las columnas 


# Uso de ILOC

In [15]:
first_row = retail_data.iloc[0]
print('Información de índice 0, primera fila:\n', first_row)

#Ahora si quiero un chunk, es decir un pedazo de información por ejemplo desde el índice 0 hasta el 5 hacemos lo siguiente
first_five_rows = retail_data.iloc[:5]
print('Información desde el índice 0 hasta el 5\n: ', first_five_rows)

#Recuerda que tanto las filas como las columnas inician desde 0

Información de índice 0, primera fila:
 InvoiceNo                                  536365
StockCode                                  85123A
Description    WHITE HANGING HEART T-LIGHT HOLDER
Quantity                                        6
InvoiceDate                          12/1/10 8:26
UnitPrice                                    2.55
CustomerID                                17850.0
Country                            United Kingdom
Name: 0, dtype: object
Información desde el índice 0 hasta el 5
:    InvoiceNo StockCode                          Description  Quantity  \
0    536365    85123A   WHITE HANGING HEART T-LIGHT HOLDER         6   
1    536365     71053                  WHITE METAL LANTERN         6   
2    536365    84406B       CREAM CUPID HEARTS COAT HANGER         8   
3    536365    84029G  KNITTED UNION FLAG HOT WATER BOTTLE         6   
4    536365    84029E       RED WOOLLY HOTTIE WHITE HEART.         6   

    InvoiceDate  UnitPrice  CustomerID         Country  
0  

Recuerda que tanto las filas como las columnas inician desde 0 y tambien puedo tener subsets de las filas y columnas... además de poder acceder a valores dentro de mi data, digamos acceder a valores de celdas.

In [None]:
subset = retail_data.iloc[:3, :2] #Primero van las filas y luego las columnas, el orden normal que se ve, algebra lineal y geometría analítica
print('Subset:\n', subset)

#Para acceder a un valor/valor de celda hacemos:
retail_value = retail_data.iloc[1,2]
print('Valor de celda: ', retail_value)

# Uso de LOC
Selección de filas con LOC...

In [17]:
row_index_3 = retail_data.loc[3]
print('La fila 2 tiene la siguiente información:\n', row_index_3, '\n')
#Chunk
row_index_ch = retail_data.loc[:4]
print('Información de filas 0-4:\n', row_index_ch,'\n')

#Ahora vamos a especificar la eetiqueta/nombre de la columna con la que quiero trabajar, estamos trabajando de la misma manerea con Cuantity

cuantity_columns = retail_data.loc[: , 'Quantity'] #Los argumentos son... de que fila a que fila y el nombre de la columna
print('La información de inicio a fin de la columna Cuantity es:\n', cuantity_columns,'\n')

#Tambien puedo hacer la selección de mas de una columna...
cuantity_unitprices_columns = retail_data.loc[: , ['Quantity', 'UnitPrice']] #Los argumentos son... de que fila a que fila y el nombre de las columnas, FIJATE QUE LE DEBO DE PASAR UNA LISTA, no es un tercer argumento la otra columna que quiero consultar
print('La información de inicio a fin de la columna Cuantity Y UNITPRICE es:\n', cuantity_unitprices_columns,'\n')

La fila 2 tiene la siguiente información:
 InvoiceNo                                   536365
StockCode                                   84029G
Description    KNITTED UNION FLAG HOT WATER BOTTLE
Quantity                                         6
InvoiceDate                           12/1/10 8:26
UnitPrice                                     3.39
CustomerID                                 17850.0
Country                             United Kingdom
Name: 3, dtype: object 

Información de filas 0-4:
   InvoiceNo StockCode                          Description  Quantity  \
0    536365    85123A   WHITE HANGING HEART T-LIGHT HOLDER         6   
1    536365     71053                  WHITE METAL LANTERN         6   
2    536365    84406B       CREAM CUPID HEARTS COAT HANGER         8   
3    536365    84029G  KNITTED UNION FLAG HOT WATER BOTTLE         6   
4    536365    84029E       RED WOOLLY HOTTIE WHITE HEART.         6   

    InvoiceDate  UnitPrice  CustomerID         Country  
0  12/1

# Consejo: Divide tu información en porciones para un mejor análisis, limpieza o extracción de información, todo depende de que es lo que quieres realizar.

# Manejo de datos faltantes en Pandas
Pueden surgir errores en la recolección de datos, problemas de almacenamiento o simplemente porque ciertos datos no estaban disponibles al momento del registro.
Todo esto puede llevar a conclusiones erroneas y decisiones empresariales equivocadas.
Existen varias maneras de corroborara que haya datos o no. Dentro de Pandas tenemos dos principales para preguntar si el dato está o no está disponible o si el dato es NULO
Primero vamos a identificar cuales son los datos faltantes... (Que no estan disponiles) con el método isna()

In [None]:
missing_data = retail_data.isna()
print('Datos No dispoibles (True):\n', missing_data)

#Si quiero solo los primeras 5 filas...
print('Primeros 5 datos:\n', missing_data.head())


Quiero contar cuantos datos faltantes tenemos, pues tenemos varias filas de información y lo que nos queda es indigar por columna o fila

Ya que una vez sabiendo si hay datos faltantes o no dentro de nuestro set de datos tenemos dos opciones principales...
- Eliminar esas filas o campos donde esta nulo
- Llenar estos valores haciendo un cambio

# dropna()
Hay que tener cuidado pues si hay con tan solo un elemento dentro de la columna sin información o no esta diponible este método de la igual forma LO ELIMINARÁ.

Hay más tratamientos que podríamos aplicar...

In [18]:
missing_data_count = retail_data.isna().sum()
#El conteo lo realiza por COLUMNA
print('Conteo de datos faltantes por columna:\n', missing_data_count, '\n')

print('Eliminar esa información NO disponible... (FILAS)\n')
#Queremos acceder a los datos que no se estan perdiendo...
no_missing_rows = retail_data.dropna()
print('Información completa, se eliminaron las filas sin información:\n', no_missing_rows)

print('\nAgregar información faltante con 0...\n')
retail_data_filled_zeros = retail_data.fillna(0)
print('Información completa de Online Retail con valores 0 en donde no había disponibilidad de datos:\n', retail_data_filled_zeros)

print('\nAccedemos de nuevo a la suma de valores con entrada None o NO disponible...\n')
print('Suma de datos faltantes después de proceso de relleno:\n', retail_data_filled_zeros.isna().sum())

Conteo de datos faltantes por columna:
 InvoiceNo           0
StockCode           0
Description      1454
Quantity            0
InvoiceDate         0
UnitPrice           0
CustomerID     135080
Country             0
dtype: int64 

Eliminar esa información NO disponible... (FILAS)

Información completa, se eliminaron las filas sin información:
        InvoiceNo StockCode                          Description  Quantity  \
0         536365    85123A   WHITE HANGING HEART T-LIGHT HOLDER         6   
1         536365     71053                  WHITE METAL LANTERN         6   
2         536365    84406B       CREAM CUPID HEARTS COAT HANGER         8   
3         536365    84029G  KNITTED UNION FLAG HOT WATER BOTTLE         6   
4         536365    84029E       RED WOOLLY HOTTIE WHITE HEART.         6   
...          ...       ...                                  ...       ...   
541904    581587     22613          PACK OF 20 SPACEBOY NAPKINS        12   
541905    581587     22899         CHI

Podemos llenar los datos faltantes pero con térnicas estadísticas como bien lo pueden ser hallar la media de la columna y en los datos que no tenemos isnertarlos ahi para no tener una modificación mas grande

In [21]:
mean_unit_price = retail_data['UnitPrice'].mean()
retail_column_filled_mean = retail_data['UnitPrice'].fillna(mean_unit_price)
print('Columna UnitPrices rellena en campos faltantes con la media de la columna:\n', retail_column_filled_mean)

Columna UnitPrices rellena en campos faltantes con la media de la columna:
 0         2.55
1         3.39
2         2.75
3         3.39
4         3.39
          ... 
541904    0.85
541905    2.10
541906    4.15
541907    4.15
541908    4.95
Name: UnitPrice, Length: 541909, dtype: float64


# Manipulación de columnas 
En este caso veremos la creación de columnas, esto lo haremos a partir de:
- Dos columnas de nuestro dataframe (operaciones entre ellas)
- A travéz de condicionales con valores de tipo booleano

In [None]:
import pandas as pd

df = pd.read_csv('/Users/hectorastudillo/py-proyects/data-analysis/pandas/Online_Retail.csv', encoding='latin1') 


df['TotalPrice'] = df['Quantity'] * df['UnitPrice'] #Con ello ya está añadido la nueva columna
print(df.head()) #Observamos las primeras 5 filas

df['HighValue'] = df['TotalPrice'] > 16
print(df['HighValue'].head(10))

  InvoiceNo StockCode                          Description  Quantity  \
0    536365    85123A   WHITE HANGING HEART T-LIGHT HOLDER         6   
1    536365     71053                  WHITE METAL LANTERN         6   
2    536365    84406B       CREAM CUPID HEARTS COAT HANGER         8   
3    536365    84029G  KNITTED UNION FLAG HOT WATER BOTTLE         6   
4    536365    84029E       RED WOOLLY HOTTIE WHITE HEART.         6   

    InvoiceDate  UnitPrice  CustomerID         Country  TotalPrice  
0  12/1/10 8:26       2.55     17850.0  United Kingdom       15.30  
1  12/1/10 8:26       3.39     17850.0  United Kingdom       20.34  
2  12/1/10 8:26       2.75     17850.0  United Kingdom       22.00  
3  12/1/10 8:26       3.39     17850.0  United Kingdom       20.34  
4  12/1/10 8:26       3.39     17850.0  United Kingdom       20.34  


Pandas por defecto captura el tipo de dato que tiene cada columna y esto puede ir variando a menos que nosotros le especifiquemos, para ello podemos obtener información a partir del método info()

In [None]:
print('Información del DataFrame:\n', df.info())
#Trabajaremos en este caso con InvoiceDate que pandas lo identifica que es de tipo object, sin embargo especificaremos que es de tipo Date para una mejor manipulación

df['InvoiceDate'] = pd.to_datetime(df['InvoiceDate']) #Sobre que columna se hará el cambio o que columna se creará. Luego va que columna se ve involucrada, de donde tomará la información digamos. En este caso es un cambio sobre una columna ya existente en ell dataframe y su misma información.


# Lambda
En pandas tambien podemos aplicar la función lambda pero en este caso aplicará a cada una de las columnas la operación que nosotros vamos a especificar...
Vamos a crear otra columna que aplicará lambda.

In [3]:
df['DiscountPrice'] = df['UnitPrice'].apply(lambda x : x*0.9)
print(df.head())

  InvoiceNo StockCode                          Description  Quantity  \
0    536365    85123A   WHITE HANGING HEART T-LIGHT HOLDER         6   
1    536365     71053                  WHITE METAL LANTERN         6   
2    536365    84406B       CREAM CUPID HEARTS COAT HANGER         8   
3    536365    84029G  KNITTED UNION FLAG HOT WATER BOTTLE         6   
4    536365    84029E       RED WOOLLY HOTTIE WHITE HEART.         6   

    InvoiceDate  UnitPrice  CustomerID         Country  TotalPrice  \
0  12/1/10 8:26       2.55     17850.0  United Kingdom       15.30   
1  12/1/10 8:26       3.39     17850.0  United Kingdom       20.34   
2  12/1/10 8:26       2.75     17850.0  United Kingdom       22.00   
3  12/1/10 8:26       3.39     17850.0  United Kingdom       20.34   
4  12/1/10 8:26       3.39     17850.0  United Kingdom       20.34   

   DiscountPrice  
0          2.295  
1          3.051  
2          2.475  
3          3.051  
4          3.051  


Tambien podemos aplicar una función a cada una de nuestras filas también utilizando el método apply, ten encunta que podemos tener transformaciones con datos categóricos y no solo numéricos.

In [4]:
def categorize_price(price): #Para cada uno de los UnitPrices lo que haremos es categorizar de la siguiente manera:
    if price > 50:
        return 'High'
    elif price < 20:
        return 'Medium'
    else:
        return 'Low'
    
#Como esa función queremos aplciarlo a nuestro dataframe hacemos lo siguiente:
df['PriceCategory'] = df['UnitPrice'].apply(categorize_price) 
#Recuerda, sobre que columna se aplicará la información o de no existir se crea. Luego va de que columna tomará la información.
print(df.head()) #Obtenemos las primeras 5 filas

  InvoiceNo StockCode                          Description  Quantity  \
0    536365    85123A   WHITE HANGING HEART T-LIGHT HOLDER         6   
1    536365     71053                  WHITE METAL LANTERN         6   
2    536365    84406B       CREAM CUPID HEARTS COAT HANGER         8   
3    536365    84029G  KNITTED UNION FLAG HOT WATER BOTTLE         6   
4    536365    84029E       RED WOOLLY HOTTIE WHITE HEART.         6   

    InvoiceDate  UnitPrice  CustomerID         Country  TotalPrice  \
0  12/1/10 8:26       2.55     17850.0  United Kingdom       15.30   
1  12/1/10 8:26       3.39     17850.0  United Kingdom       20.34   
2  12/1/10 8:26       2.75     17850.0  United Kingdom       22.00   
3  12/1/10 8:26       3.39     17850.0  United Kingdom       20.34   
4  12/1/10 8:26       3.39     17850.0  United Kingdom       20.34   

   DiscountPrice PriceCategory  
0          2.295        Medium  
1          3.051        Medium  
2          2.475        Medium  
3          3.0