# Analisis de Datos con pandas

In [1]:
import pandas as pd

In [5]:
# Se fuerza un error al leer el archivo sin especificar la codificación adecuada
# Esto puede ocurrir si el archivo contiene caracteres especiales y no está en UTF-8
df_sales = pd.read_csv('./utils/data/sales_data_sample.csv')

# Mostramos el contenido del DataFrame
df_sales


UnicodeDecodeError: 'utf-8' codec can't decode byte 0x84 in position 5327: invalid start byte

In [None]:
# Leemos el archivo CSV 'sales_data_sample.csv' ubicado en la carpeta './utils/data/'
# Usamos la codificación 'ISO-8859-1' ya que el archivo puede contener caracteres especiales (acentos, eñes, etc.)
# Esto evita errores comunes al leer archivos que no están en formato UTF-8
df_sales = pd.read_csv('./utils/data/sales_data_sample.csv', encoding='ISO-8859-1')

# Mostramos el contenido del DataFrame cargado
df_sales


Unnamed: 0,ORDERNUMBER,QUANTITYORDERED,PRICEEACH,ORDERLINENUMBER,SALES,ORDERDATE,STATUS,QTR_ID,MONTH_ID,YEAR_ID,...,ADDRESSLINE1,ADDRESSLINE2,CITY,STATE,POSTALCODE,COUNTRY,TERRITORY,CONTACTLASTNAME,CONTACTFIRSTNAME,DEALSIZE
0,10107,30,95.70,2,2871.00,2/24/2003 0:00,Shipped,1,2,2003,...,897 Long Airport Avenue,,NYC,NY,10022,USA,,Yu,Kwai,Small
1,10121,34,81.35,5,2765.90,5/7/2003 0:00,Shipped,2,5,2003,...,59 rue de l'Abbaye,,Reims,,51100,France,EMEA,Henriot,Paul,Small
2,10134,41,94.74,2,3884.34,7/1/2003 0:00,Shipped,3,7,2003,...,27 rue du Colonel Pierre Avia,,Paris,,75508,France,EMEA,Da Cunha,Daniel,Medium
3,10145,45,83.26,6,3746.70,8/25/2003 0:00,Shipped,3,8,2003,...,78934 Hillside Dr.,,Pasadena,CA,90003,USA,,Young,Julie,Medium
4,10159,49,100.00,14,5205.27,10/10/2003 0:00,Shipped,4,10,2003,...,7734 Strong St.,,San Francisco,CA,,USA,,Brown,Julie,Medium
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
2818,10350,20,100.00,15,2244.40,12/2/2004 0:00,Shipped,4,12,2004,...,"C/ Moralzarzal, 86",,Madrid,,28034,Spain,EMEA,Freyre,Diego,Small
2819,10373,29,100.00,1,3978.51,1/31/2005 0:00,Shipped,1,1,2005,...,Torikatu 38,,Oulu,,90110,Finland,EMEA,Koskitalo,Pirkko,Medium
2820,10386,43,100.00,4,5417.57,3/1/2005 0:00,Resolved,1,3,2005,...,"C/ Moralzarzal, 86",,Madrid,,28034,Spain,EMEA,Freyre,Diego,Medium
2821,10397,34,62.24,1,2116.16,3/28/2005 0:00,Shipped,1,3,2005,...,1 rue Alsace-Lorraine,,Toulouse,,31000,France,EMEA,Roulet,Annette,Small


In [6]:
# ver que columnas tiene
df_sales.columns

Index(['ORDERNUMBER', 'QUANTITYORDERED', 'PRICEEACH', 'ORDERLINENUMBER',
       'SALES', 'ORDERDATE', 'STATUS', 'QTR_ID', 'MONTH_ID', 'YEAR_ID',
       'PRODUCTLINE', 'MSRP', 'PRODUCTCODE', 'CUSTOMERNAME', 'PHONE',
       'ADDRESSLINE1', 'ADDRESSLINE2', 'CITY', 'STATE', 'POSTALCODE',
       'COUNTRY', 'TERRITORY', 'CONTACTLASTNAME', 'CONTACTFIRSTNAME',
       'DEALSIZE'],
      dtype='object')

In [7]:
# Que tipos de datos tiene
df_sales.dtypes

ORDERNUMBER           int64
QUANTITYORDERED       int64
PRICEEACH           float64
ORDERLINENUMBER       int64
SALES               float64
ORDERDATE            object
STATUS               object
QTR_ID                int64
MONTH_ID              int64
YEAR_ID               int64
PRODUCTLINE          object
MSRP                  int64
PRODUCTCODE          object
CUSTOMERNAME         object
PHONE                object
ADDRESSLINE1         object
ADDRESSLINE2         object
CITY                 object
STATE                object
POSTALCODE           object
COUNTRY              object
TERRITORY            object
CONTACTLASTNAME      object
CONTACTFIRSTNAME     object
DEALSIZE             object
dtype: object

In [10]:
# Que informacion tiene adicional el dataframe
df_sales.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 2823 entries, 0 to 2822
Data columns (total 25 columns):
 #   Column            Non-Null Count  Dtype  
---  ------            --------------  -----  
 0   ORDERNUMBER       2823 non-null   int64  
 1   QUANTITYORDERED   2823 non-null   int64  
 2   PRICEEACH         2823 non-null   float64
 3   ORDERLINENUMBER   2823 non-null   int64  
 4   SALES             2823 non-null   float64
 5   ORDERDATE         2823 non-null   object 
 6   STATUS            2823 non-null   object 
 7   QTR_ID            2823 non-null   int64  
 8   MONTH_ID          2823 non-null   int64  
 9   YEAR_ID           2823 non-null   int64  
 10  PRODUCTLINE       2823 non-null   object 
 11  MSRP              2823 non-null   int64  
 12  PRODUCTCODE       2823 non-null   object 
 13  CUSTOMERNAME      2823 non-null   object 
 14  PHONE             2823 non-null   object 
 15  ADDRESSLINE1      2823 non-null   object 
 16  ADDRESSLINE2      302 non-null    object 


# Analisis Adicionales

In [None]:
# Calculamos la cantidad total de valores nulos por columna en el DataFrame
# 1. df_sales.isnull() → devuelve un DataFrame booleano con True donde hay NaN
# 2. .sum() → suma los True (que cuentan como 1), dando el total de nulos por columna
# 3. .sort_values(ascending=False) → ordena las columnas de mayor a menor cantidad de nulos
total_nulos = df_sales.isnull().sum().sort_values(ascending=False)

# Mostramos el resultado ordenado de las columnas con valores faltantes
total_nulos


# Calculamos el porcentaje de valores nulos por columna:
# 1. df_sales.isnull().sum() → cantidad de nulos por columna
# 2. df_sales.isnull().count() → total de registros por columna (sin contar nulos)
# 3. División para obtener el porcentaje, luego ordenamos de mayor a menor
porcentaje_nulos = (
    df_sales.isnull().sum()  # contar filas con nulos
    / df_sales.isnull().count() # contar todas las filas
).sort_values(ascending=False)

# Mostramos el porcentaje de nulos por columna
porcentaje_nulos



ADDRESSLINE2        2521
STATE               1486
TERRITORY           1074
POSTALCODE            76
SALES                  0
QUANTITYORDERED        0
PRICEEACH              0
ORDERLINENUMBER        0
ORDERNUMBER            0
MONTH_ID               0
QTR_ID                 0
STATUS                 0
ORDERDATE              0
PRODUCTCODE            0
YEAR_ID                0
MSRP                   0
PRODUCTLINE            0
ADDRESSLINE1           0
PHONE                  0
CUSTOMERNAME           0
CITY                   0
COUNTRY                0
CONTACTLASTNAME        0
CONTACTFIRSTNAME       0
DEALSIZE               0
dtype: int64

In [20]:
# Seleccionamos solo las columnas del DataFrame que son del tipo float
df_sales.select_dtypes(include='float')

df_sales.select_dtypes(include=['int64', 'float'])


Unnamed: 0,ORDERNUMBER,QUANTITYORDERED,PRICEEACH,ORDERLINENUMBER,SALES,QTR_ID,MONTH_ID,YEAR_ID,MSRP
0,10107,30,95.70,2,2871.00,1,2,2003,95
1,10121,34,81.35,5,2765.90,2,5,2003,95
2,10134,41,94.74,2,3884.34,3,7,2003,95
3,10145,45,83.26,6,3746.70,3,8,2003,95
4,10159,49,100.00,14,5205.27,4,10,2003,95
...,...,...,...,...,...,...,...,...,...
2818,10350,20,100.00,15,2244.40,4,12,2004,54
2819,10373,29,100.00,1,3978.51,1,1,2005,54
2820,10386,43,100.00,4,5417.57,1,3,2005,54
2821,10397,34,62.24,1,2116.16,1,3,2005,54


In [24]:
# Máscaras booleanas: permiten seleccionar columnas específicas basadas en una lista
# me servira cuando tengo que hacer dinamico la seleccion de una lista

# Mostramos todas las columnas del DataFrame
df_sales.columns

# Creamos una máscara booleana donde cada valor indica si el nombre de la columna
# está presente en la lista dada (por ejemplo, 'PRICEEACH' y 'CAMPO')
booleanMask = df_sales.columns.isin(['PRICEEACH', 'CAMPO'])

# Usamos la máscara para seleccionar solo las columnas deseadas
selectCols = df_sales.columns[booleanMask]

# Mostramos las columnas seleccionadas
selectCols


Index(['PRICEEACH'], dtype='object')

In [26]:
# Mostramos del dataframe las columnas seleccionadas
df_sales[selectCols]

Unnamed: 0,PRICEEACH
0,95.70
1,81.35
2,94.74
3,83.26
4,100.00
...,...
2818,100.00
2819,100.00
2820,100.00
2821,62.24


In [27]:
# Filtramos columnas cuyos nombres contengan la palabra 'NUMBER'
# El parámetro 'like' permite buscar coincidencias parciales en los nombres de columnas
df_sales.filter(like='NUMBER')


Unnamed: 0,ORDERNUMBER,ORDERLINENUMBER
0,10107,2
1,10121,5
2,10134,2
3,10145,6
4,10159,14
...,...,...
2818,10350,15
2819,10373,1
2820,10386,4
2821,10397,1


.query() es más rápido en grandes volúmenes porque usa numexpr, una librería optimizada en C que evalúa expresiones más rápido y consume menos memoria que el filtrado tradicional con corchetes. Ideal para operaciones numéricas simples.

In [None]:
# Esto es mas rapido con gran volumen de datos
# Filtramos las filas del DataFrame donde el valor de la columna 'STATE' sea igual a 'NY'
# Esto nos permite trabajar solo con los datos del estado de Nueva York
df2 = df_sales[df_sales['STATE'] == 'NY']

# Mostramos el DataFrame filtrado
df2


Unnamed: 0,ORDERNUMBER,QUANTITYORDERED,PRICEEACH,ORDERLINENUMBER,SALES,ORDERDATE,STATUS,QTR_ID,MONTH_ID,YEAR_ID,...,ADDRESSLINE1,ADDRESSLINE2,CITY,STATE,POSTALCODE,COUNTRY,TERRITORY,CONTACTLASTNAME,CONTACTFIRSTNAME,DEALSIZE
0,10107,30,95.70,2,2871.00,2/24/2003 0:00,Shipped,1,2,2003,...,897 Long Airport Avenue,,NYC,NY,10022,USA,,Yu,Kwai,Small
11,10237,23,100.00,7,2333.12,4/5/2004 0:00,Shipped,2,4,2004,...,2678 Kingston Rd.,Suite 101,NYC,NY,10022,USA,,Frick,Michael,Small
19,10329,42,100.00,1,4396.14,11/15/2004 0:00,Shipped,4,11,2004,...,897 Long Airport Avenue,,NYC,NY,10022,USA,,Yu,Kwai,Medium
31,10163,21,100.00,1,4860.24,10/20/2003 0:00,Shipped,4,10,2003,...,5905 Pompton St.,Suite 750,NYC,NY,10022,USA,,Hernandez,Maria,Medium
54,10107,39,99.91,5,3896.49,2/24/2003 0:00,Shipped,1,2,2003,...,897 Long Airport Avenue,,NYC,NY,10022,USA,,Yu,Kwai,Medium
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
2737,10337,36,71.89,7,2588.04,11/21/2004 0:00,Shipped,4,11,2004,...,5905 Pompton St.,Suite 750,NYC,NY,10022,USA,,Hernandez,Maria,Small
2759,10308,39,68.11,15,2656.29,10/15/2004 0:00,Shipped,4,10,2004,...,3758 North Pendale Street,,White Plains,NY,24067,USA,,Frick,Steve,Small
2788,10329,44,86.13,8,3789.72,11/15/2004 0:00,Shipped,4,11,2004,...,897 Long Airport Avenue,,NYC,NY,10022,USA,,Yu,Kwai,Medium
2809,10248,23,65.52,9,1506.96,5/7/2004 0:00,Cancelled,2,5,2004,...,897 Long Airport Avenue,,NYC,NY,10022,USA,,Yu,Kwai,Small


In [30]:
# Filtramos filas del DataFrame donde la columna 'STATE' sea igual a "NY"
# Usamos el método .query(), que permite escribir la condición como una expresión de cadena
df3 = df_sales.query('STATE == "NY"')

# Mostramos el DataFrame filtrado
df3


Unnamed: 0,ORDERNUMBER,QUANTITYORDERED,PRICEEACH,ORDERLINENUMBER,SALES,ORDERDATE,STATUS,QTR_ID,MONTH_ID,YEAR_ID,...,ADDRESSLINE1,ADDRESSLINE2,CITY,STATE,POSTALCODE,COUNTRY,TERRITORY,CONTACTLASTNAME,CONTACTFIRSTNAME,DEALSIZE
0,10107,30,95.70,2,2871.00,2/24/2003 0:00,Shipped,1,2,2003,...,897 Long Airport Avenue,,NYC,NY,10022,USA,,Yu,Kwai,Small
11,10237,23,100.00,7,2333.12,4/5/2004 0:00,Shipped,2,4,2004,...,2678 Kingston Rd.,Suite 101,NYC,NY,10022,USA,,Frick,Michael,Small
19,10329,42,100.00,1,4396.14,11/15/2004 0:00,Shipped,4,11,2004,...,897 Long Airport Avenue,,NYC,NY,10022,USA,,Yu,Kwai,Medium
31,10163,21,100.00,1,4860.24,10/20/2003 0:00,Shipped,4,10,2003,...,5905 Pompton St.,Suite 750,NYC,NY,10022,USA,,Hernandez,Maria,Medium
54,10107,39,99.91,5,3896.49,2/24/2003 0:00,Shipped,1,2,2003,...,897 Long Airport Avenue,,NYC,NY,10022,USA,,Yu,Kwai,Medium
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
2737,10337,36,71.89,7,2588.04,11/21/2004 0:00,Shipped,4,11,2004,...,5905 Pompton St.,Suite 750,NYC,NY,10022,USA,,Hernandez,Maria,Small
2759,10308,39,68.11,15,2656.29,10/15/2004 0:00,Shipped,4,10,2004,...,3758 North Pendale Street,,White Plains,NY,24067,USA,,Frick,Steve,Small
2788,10329,44,86.13,8,3789.72,11/15/2004 0:00,Shipped,4,11,2004,...,897 Long Airport Avenue,,NYC,NY,10022,USA,,Yu,Kwai,Medium
2809,10248,23,65.52,9,1506.96,5/7/2004 0:00,Cancelled,2,5,2004,...,897 Long Airport Avenue,,NYC,NY,10022,USA,,Yu,Kwai,Small
