# PANDAS - TRATAMIENTO DE NULOS

## Ejercicio 1.0

Siempre comenzamos importando e instalando las librerías

In [2]:
!pip install Pandas==2.2.2



In [3]:
!pip install numpy



In [4]:
!pip install openpyxl



In [5]:
!pip install pyarrow



In [6]:
!pip install fastparquet



In [7]:
!pip install lxml



In [8]:
import numpy as np
import pandas as pd
import json  #para usar .json
import os #para interacturar con nuestros archivos (crear carpetas)

## TRABAJO CON NULOS

Los nulos son datos faltantes o información perdida.

Las causas de que existan nulos en un set de datos pueden ser diversas, entre las posibles fuentes se pueden nombrar:

- En el origen de la información: formularios con inputs no obligatorios.

- Falta de sincronicidad.

- Manipulación de los datos.

### Ejercicio 1.1

Vamos a crear un DataFrame para ver las opciones disponibles con Pandas para trabajar con nulos.

In [9]:
semana = pd.date_range(start='2024-04-08', end='2024-04-14')

#creo el DataFrame
df_resumen_ventas = pd.DataFrame(
    data = {
        "clientes":[10,np.nan,12,16,20,np.nan,14],#primer columna
        "pedidos":[4,2,14,10,1,10,12],#segunda columna
        "ingresos":[np.nan,20000,4500,7000,np.nan,5900,12000]#tercer columna
    },
    index=semana)#los dias como índices
df_resumen_ventas

Unnamed: 0,clientes,pedidos,ingresos
2024-04-08,10.0,4,
2024-04-09,,2,20000.0
2024-04-10,12.0,14,4500.0
2024-04-11,16.0,10,7000.0
2024-04-12,20.0,1,
2024-04-13,,10,5900.0
2024-04-14,14.0,12,12000.0


Vamos a identificar la cantidad de nulos y dónde están ubicados.

In [10]:
df_resumen_ventas.isnull() #transforma el dataframe a undataframe booleano, True(es nulo) False (no nulo)

Unnamed: 0,clientes,pedidos,ingresos
2024-04-08,False,False,True
2024-04-09,True,False,False
2024-04-10,False,False,False
2024-04-11,False,False,False
2024-04-12,False,False,True
2024-04-13,True,False,False
2024-04-14,False,False,False


In [11]:
df_resumen_ventas.isnull().sum() #cuenta la cantidad de nulos por columna

clientes    2
pedidos     0
ingresos    2
dtype: int64

¿Qué medidas puedo tomar para tarabajar con nulos?

1. Eliminación
2. Reemplazar los nulos
3. Interpolar

### Eliminación

Una medida drástica que podemos tomar es la eliminación de cualquier FILA o COLUMNA con nulos

#### Ejercicio 1.2

In [12]:
#crea un nuevo DataFrame en donde se han eliminado todas las FILAS con nulos.
df_resumen_ventas.dropna()

Unnamed: 0,clientes,pedidos,ingresos
2024-04-10,12.0,14,4500.0
2024-04-11,16.0,10,7000.0
2024-04-14,14.0,12,12000.0


Si la cantidad de nulos no supera el 5%, el archivo no sufrirá cambios al eliminar las filas

#### Ejercicio 1.3

In [13]:
#crea un nuevo DataFrame en donde se han eliminado todas las fila COLUMNAS con nulos.
df_resumen_ventas.dropna(axis=1)

Unnamed: 0,pedidos
2024-04-08,4
2024-04-09,2
2024-04-10,14
2024-04-11,10
2024-04-12,1
2024-04-13,10
2024-04-14,12


### REEMPLZAR LOS NULOS

In [14]:
df_resumen_ventas

Unnamed: 0,clientes,pedidos,ingresos
2024-04-08,10.0,4,
2024-04-09,,2,20000.0
2024-04-10,12.0,14,4500.0
2024-04-11,16.0,10,7000.0
2024-04-12,20.0,1,
2024-04-13,,10,5900.0
2024-04-14,14.0,12,12000.0


#### Ejercicio 1.4

In [15]:
df_resumen_ventas.fillna(0) #vamos a reemplazar los nulos con el valor 0

Unnamed: 0,clientes,pedidos,ingresos
2024-04-08,10.0,4,0.0
2024-04-09,0.0,2,20000.0
2024-04-10,12.0,14,4500.0
2024-04-11,16.0,10,7000.0
2024-04-12,20.0,1,0.0
2024-04-13,0.0,10,5900.0
2024-04-14,14.0,12,12000.0


Reemplazar los nulos afectan las métricas que obtengamos

In [16]:
df_resumen_ventas.describe() #sin reemplazar con 0

Unnamed: 0,clientes,pedidos,ingresos
count,5.0,7.0,5.0
mean,14.4,7.571429,9880.0
std,3.847077,5.159365,6324.318145
min,10.0,1.0,4500.0
25%,12.0,3.0,5900.0
50%,14.0,10.0,7000.0
75%,16.0,11.0,12000.0
max,20.0,14.0,20000.0


In [17]:
df_resumen_ventas.fillna(0).describe() #reemplazado con 0

Unnamed: 0,clientes,pedidos,ingresos
count,7.0,7.0,7.0
mean,10.285714,7.571429,7057.142857
std,7.696629,5.159365,7064.431363
min,0.0,1.0,0.0
25%,5.0,3.0,2250.0
50%,12.0,10.0,5900.0
75%,15.0,11.0,9500.0
max,20.0,14.0,20000.0


#### Ejercicio 1.5

In [18]:
df_resumen_ventas.mean()

clientes      14.400000
pedidos        7.571429
ingresos    9880.000000
dtype: float64

In [19]:
df_resumen_ventas.fillna(df_resumen_ventas.mean()) #reemplazamos los nulos con la media (mean)

Unnamed: 0,clientes,pedidos,ingresos
2024-04-08,10.0,4,9880.0
2024-04-09,14.4,2,20000.0
2024-04-10,12.0,14,4500.0
2024-04-11,16.0,10,7000.0
2024-04-12,20.0,1,9880.0
2024-04-13,14.4,10,5900.0
2024-04-14,14.0,12,12000.0


Veamos las métricas

In [20]:
df_resumen_ventas.describe() #antes de reemplazar

Unnamed: 0,clientes,pedidos,ingresos
count,5.0,7.0,5.0
mean,14.4,7.571429,9880.0
std,3.847077,5.159365,6324.318145
min,10.0,1.0,4500.0
25%,12.0,3.0,5900.0
50%,14.0,10.0,7000.0
75%,16.0,11.0,12000.0
max,20.0,14.0,20000.0


In [21]:
df_resumen_ventas.fillna(df_resumen_ventas.mean()).describe() #despues de reemplazar

Unnamed: 0,clientes,pedidos,ingresos
count,7.0,7.0,7.0
mean,14.4,7.571429,9880.0
std,3.141125,5.159365,5163.784142
min,10.0,1.0,4500.0
25%,13.0,3.0,6450.0
50%,14.4,10.0,9880.0
75%,15.2,11.0,10940.0
max,20.0,14.0,20000.0


### INTERPOLAR

El valor faltante se calcula como el valor intermedio entre el valor anterior y el valor siguiente.

- Los nulos que no tenga anterior o posterior no se podrá interpolar.

- Interpolar significa que los registros se ven afectados por su valor anterior y afectan al valor siguiente

#### Ejercicio 1.6

In [22]:
df_resumen_ventas

Unnamed: 0,clientes,pedidos,ingresos
2024-04-08,10.0,4,
2024-04-09,,2,20000.0
2024-04-10,12.0,14,4500.0
2024-04-11,16.0,10,7000.0
2024-04-12,20.0,1,
2024-04-13,,10,5900.0
2024-04-14,14.0,12,12000.0


In [23]:
df_resumen_ventas.interpolate()

Unnamed: 0,clientes,pedidos,ingresos
2024-04-08,10.0,4,
2024-04-09,11.0,2,20000.0
2024-04-10,12.0,14,4500.0
2024-04-11,16.0,10,7000.0
2024-04-12,20.0,1,6450.0
2024-04-13,17.0,10,5900.0
2024-04-14,14.0,12,12000.0


#### Ejercicio 1.7

In [24]:
dict_articulos = {
    'Codigo producto': ['S10Galaxi0.4', 'SillaMaderaExt', 'TV43', 'Gallo1', 'Paraguas'],
    'Cantidad Vendida': [100, np.nan, 150, np.nan, 200],
    'Precio Unitario': [10.5, 15.2, 12.7, np.nan, 9.8],
    'Categoría': ['Electrónica',  np.nan, 'Electrónica',  np.nan, 'Ropa']
}

df_articulos = pd.DataFrame(dict_articulos)

df_articulos

Unnamed: 0,Codigo producto,Cantidad Vendida,Precio Unitario,Categoría
0,S10Galaxi0.4,100.0,10.5,Electrónica
1,SillaMaderaExt,,15.2,
2,TV43,150.0,12.7,Electrónica
3,Gallo1,,,
4,Paraguas,200.0,9.8,Ropa


Se aplicarán diferentes criterios según la fila

In [25]:
df_articulos["Categoría"] = df_articulos["Categoría"].fillna("Otros") #relleno con "otros"
df_articulos["Cantidad Vendida"] = df_articulos["Cantidad Vendida"].fillna(0) #relleno con 0 porque no puedo saber si se vendieron o no
df_articulos["Precio Unitario"] = df_articulos["Precio Unitario"].fillna(df_articulos["Precio Unitario"].mean()) #relleno con la media

df_articulos

Unnamed: 0,Codigo producto,Cantidad Vendida,Precio Unitario,Categoría
0,S10Galaxi0.4,100.0,10.5,Electrónica
1,SillaMaderaExt,0.0,15.2,Otros
2,TV43,150.0,12.7,Electrónica
3,Gallo1,0.0,12.05,Otros
4,Paraguas,200.0,9.8,Ropa


## IMPORTAR Y EXPORTAR DATOS USANDO PANDAS/PYTHON

https://pandas.pydata.org/docs/user_guide/io.html#io

### CSV

#### Ejercicio 1.8

Veamos cómo trabajar con archivos **.csv**

In [26]:
df_customers = pd.read_csv("./data/customers.csv") #como parametro va a ruta del .csv
df_customers


Unnamed: 0,Age,Gender,Marital Status,Occupation,Monthly Income,Educational Qualifications,Family size,latitude,longitude,Pin code,Output,Feedback,Unnamed: 12
0,20,Female,Single,Student,No Income,Post Graduate,4,12.9766,77.5993,560001,Yes,Positive,Yes
1,24,Female,Single,Student,Below Rs.10000,Graduate,3,12.9770,77.5773,560009,Yes,Positive,Yes
2,22,Male,Single,Student,Below Rs.10000,Post Graduate,3,12.9551,77.6593,560017,Yes,Negative,Yes
3,22,Female,Single,Student,No Income,Graduate,6,12.9473,77.5616,560019,Yes,Positive,Yes
4,22,Male,Single,Student,Below Rs.10000,Post Graduate,4,12.9850,77.5533,560010,Yes,Positive,Yes
...,...,...,...,...,...,...,...,...,...,...,...,...,...
383,23,Female,Single,Student,No Income,Post Graduate,2,12.9766,77.5993,560001,Yes,Positive,Yes
384,23,Female,Single,Student,No Income,Post Graduate,4,12.9854,77.7081,560048,Yes,Positive,Yes
385,22,Female,Single,Student,No Income,Post Graduate,5,12.9850,77.5533,560010,Yes,Positive,Yes
386,23,Male,Single,Student,Below Rs.10000,Post Graduate,2,12.9770,77.5773,560009,Yes,Positive,Yes


In [27]:
#vamos a extrar un subdataset con los clientes satisfechos (feedback positivo)
df_clientes_satisfechos = df_customers[df_customers.Feedback == "Positive"]
df_clientes_satisfechos

Unnamed: 0,Age,Gender,Marital Status,Occupation,Monthly Income,Educational Qualifications,Family size,latitude,longitude,Pin code,Output,Feedback,Unnamed: 12
0,20,Female,Single,Student,No Income,Post Graduate,4,12.9766,77.5993,560001,Yes,Positive,Yes
1,24,Female,Single,Student,Below Rs.10000,Graduate,3,12.9770,77.5773,560009,Yes,Positive,Yes
3,22,Female,Single,Student,No Income,Graduate,6,12.9473,77.5616,560019,Yes,Positive,Yes
4,22,Male,Single,Student,Below Rs.10000,Post Graduate,4,12.9850,77.5533,560010,Yes,Positive,Yes
5,27,Female,Married,Employee,More than 50000,Post Graduate,2,12.9299,77.6848,560103,Yes,Positive,Yes
...,...,...,...,...,...,...,...,...,...,...,...,...,...
383,23,Female,Single,Student,No Income,Post Graduate,2,12.9766,77.5993,560001,Yes,Positive,Yes
384,23,Female,Single,Student,No Income,Post Graduate,4,12.9854,77.7081,560048,Yes,Positive,Yes
385,22,Female,Single,Student,No Income,Post Graduate,5,12.9850,77.5533,560010,Yes,Positive,Yes
386,23,Male,Single,Student,Below Rs.10000,Post Graduate,2,12.9770,77.5773,560009,Yes,Positive,Yes


In [28]:
df_clientes_satisfechos.shape

(317, 13)

Para guardar el DataFrame como archivo .csv creado se utiliza `.to_csv("ruta donde guardarlo")`

In [29]:
df_clientes_satisfechos.to_csv("./data/clientes_satisfechos.csv")

#### Ejercicio 1.9

Importamos un .csv desde la web

In [30]:
df_banco = pd.read_csv("https://raw.githubusercontent.com/Andresmup/ArchivosDataScience/main/bank_customers.csv")

In [31]:
df_banco.head()

Unnamed: 0,RowNumber,CustomerId,Surname,CreditScore,Geography,Gender,Age,Tenure,Balance,NumOfProducts,HasCrCard,IsActiveMember,EstimatedSalary,Exited
0,1,15634602,Hargrave,619,France,Female,42,2,0.0,1,1,1,101348.88,1
1,2,15647311,Hill,608,Spain,Female,41,1,83807.86,1,0,1,112542.58,0
2,3,15619304,Onio,502,France,Female,42,8,159660.8,3,1,0,113931.57,1
3,4,15701354,Boni,699,France,Female,39,1,0.0,2,0,0,93826.63,0
4,5,15737888,Mitchell,850,Spain,Female,43,2,125510.82,1,1,1,79084.1,0


In [33]:
df_banco.shape

(10000, 14)

In [35]:
#quiero filtar los clientes de españa (Spain)
df_clientes_espanoles = df_banco[df_banco.Geography == "Spain"]
df_clientes_espanoles.head()

Unnamed: 0,RowNumber,CustomerId,Surname,CreditScore,Geography,Gender,Age,Tenure,Balance,NumOfProducts,HasCrCard,IsActiveMember,EstimatedSalary,Exited
1,2,15647311,Hill,608,Spain,Female,41,1,83807.86,1,0,1,112542.58,0
4,5,15737888,Mitchell,850,Spain,Female,43,2,125510.82,1,1,1,79084.1,0
5,6,15574012,Chu,645,Spain,Male,44,8,113755.78,2,1,0,149756.71,1
11,12,15737173,Andrews,497,Spain,Male,24,3,0.0,2,1,0,76390.01,0
14,15,15600882,Scott,635,Spain,Female,35,7,0.0,2,1,1,65951.65,0


In [36]:
df_clientes_espanoles.shape

(2477, 14)

In [38]:
#exportamos ambos DataFrames
df_banco.to_csv("./data/clientes_banco.csv")
df_clientes_espanoles.to_csv("./data/clientes_banco_espanoles.csv")

### EXCEL

#### Ejercicio 1.10

Vamos a importar una tabla a partir de un archivo excel **.xls** o **.xlsx**

In [39]:
df_house_pricing_index_united_states = pd.read_excel("./data/house_pricing_index_united_states.xlsx")

In [40]:
df_house_pricing_index_united_states.head()

Unnamed: 0,Hpi_Type,Hpi_Flavor,Frequency,Level,Place_Name,Place_Id,Year,Period,Index_NSA,Index_SA
0,Traditional,Purchase-Only,Monthly,Usa Or Census Division,East North Central Division,Dv_Enc,1991.0,1.0,100.0,100.0
1,Traditional,Purchase-Only,Monthly,Usa Or Census Division,East North Central Division,Dv_Enc,1991.0,2.0,100.89,100.95
2,Traditional,Purchase-Only,Monthly,Usa Or Census Division,East North Central Division,Dv_Enc,1991.0,3.0,101.3,100.91
3,Traditional,Purchase-Only,Monthly,Usa Or Census Division,East North Central Division,Dv_Enc,1991.0,4.0,101.69,100.98
4,Traditional,Purchase-Only,Monthly,Usa Or Census Division,East North Central Division,Dv_Enc,1991.0,5.0,102.31,101.35


In [41]:
df_house_pricing_index_united_states.shape

(124816, 10)

In [44]:
#lo guardamos como csv
df_house_pricing_index_united_states.to_csv("./data/house_pricing_index_united_states.csv")

### JSON

https://www.json.org/json-es.html

Con pandas se puede trabajar con archivos json lectura y escritura.

JSON es un formato de texto que forma parte del sistema de JavaScript y que se deriva de su sintaxis, pero no tiene como objetivo la creación de programas, sino el acceso, almacenamiento e intercambio de datos.

Normalmente la informacion que se guarda en un archivo json no es de grandes dimensiones, una practica muy comun es que las filas de datos de una tabla / dataframe sean transformadas a un json o leidas desde uno.

#### Ejercicio 1.11

Exportar algunas filas de un dataset mucho más grande a formato .json

In [48]:
#vamos a ignorar el low memory e indicar que la columna index actue como indice
df_ecommerce = pd.read_csv("https://raw.githubusercontent.com/Andresmup/ArchivosDataScience/main/ecommerce_sale_report.csv", index_col="index", low_memory=False)
df_ecommerce

Unnamed: 0_level_0,Order ID,Date,Status,Fulfilment,Sales Channel,ship-service-level,Style,SKU,Category,Size,...,currency,Amount,ship-city,ship-state,ship-postal-code,ship-country,promotion-ids,B2B,fulfilled-by,Unnamed: 22
index,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1,Unnamed: 15_level_1,Unnamed: 16_level_1,Unnamed: 17_level_1,Unnamed: 18_level_1,Unnamed: 19_level_1,Unnamed: 20_level_1,Unnamed: 21_level_1
0,405-8078784-5731545,04-30-22,Cancelled,Merchant,Amazon.in,Standard,SET389,SET389-KR-NP-S,Set,S,...,INR,647.62,MUMBAI,MAHARASHTRA,400081.0,IN,,False,Easy Ship,
1,171-9198151-1101146,04-30-22,Shipped - Delivered to Buyer,Merchant,Amazon.in,Standard,JNE3781,JNE3781-KR-XXXL,kurta,3XL,...,INR,406.00,BENGALURU,KARNATAKA,560085.0,IN,Amazon PLCC Free-Financing Universal Merchant ...,False,Easy Ship,
2,404-0687676-7273146,04-30-22,Shipped,Amazon,Amazon.in,Expedited,JNE3371,JNE3371-KR-XL,kurta,XL,...,INR,329.00,NAVI MUMBAI,MAHARASHTRA,410210.0,IN,IN Core Free Shipping 2015/04/08 23-48-5-108,True,,
3,403-9615377-8133951,04-30-22,Cancelled,Merchant,Amazon.in,Standard,J0341,J0341-DR-L,Western Dress,L,...,INR,753.33,PUDUCHERRY,PUDUCHERRY,605008.0,IN,,False,Easy Ship,
4,407-1069790-7240320,04-30-22,Shipped,Amazon,Amazon.in,Expedited,JNE3671,JNE3671-TU-XXXL,Top,3XL,...,INR,574.00,CHENNAI,TAMIL NADU,600073.0,IN,,False,,
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
128970,406-6001380-7673107,05-31-22,Shipped,Amazon,Amazon.in,Expedited,JNE3697,JNE3697-KR-XL,kurta,XL,...,INR,517.00,HYDERABAD,TELANGANA,500013.0,IN,,False,,False
128971,402-9551604-7544318,05-31-22,Shipped,Amazon,Amazon.in,Expedited,SET401,SET401-KR-NP-M,Set,M,...,INR,999.00,GURUGRAM,HARYANA,122004.0,IN,IN Core Free Shipping 2015/04/08 23-48-5-108,False,,False
128972,407-9547469-3152358,05-31-22,Shipped,Amazon,Amazon.in,Expedited,J0157,J0157-DR-XXL,Western Dress,XXL,...,INR,690.00,HYDERABAD,TELANGANA,500049.0,IN,,False,,False
128973,402-6184140-0545956,05-31-22,Shipped,Amazon,Amazon.in,Expedited,J0012,J0012-SKD-XS,Set,XS,...,INR,1199.00,Halol,Gujarat,389350.0,IN,IN Core Free Shipping 2015/04/08 23-48-5-108,False,,False


In [49]:
#vamos a crear una carpeta llamada data_json con python
#primero comprobamos que la carpeta no exista previamente

if not os.path.exists("./data_json"):
    os.makedirs("data_json")
