# Día 1: Lectura y limpieza de archivos CSV/EXCEL con Pandas

### Vamos a:


*   Leer archivos CSV y Excel
*   Explorar datos basicos
*   Limpiar datos comunes, nulos duplicados y formatos



In [4]:
import pandas as pd
import numpy as np

#### Iniciamos con CSV

In [6]:
#Iniciamos importando el df en csv

df = pd.read_csv('datos_simulados.csv')
df.head()

Unnamed: 0,fecha,producto,cantidad,precio_unitario
0,2024-01-01,Manzana,10.0,5
1,2024-01-02,Plátano,20.0,3
2,2024-01-03,Manzana,,5
3,,Manzana,15.0,5
4,2024-01-05,,10.0,3


#### Explorar el df

*   ¿cuantas filas y columnas tiene?
*   ¿Hay valores nulos?
*   ¿Qué tipo de datos hay en cada columna?



In [12]:
# ¿cuantas filas y columnas hay?

df.shape

(6, 4)

In [13]:
# ¿Hay valores nulos?

df.isnull().sum()

Unnamed: 0,0
fecha,1
producto,1
cantidad,1
precio_unitario,0


In [14]:
# ¿Qué tipo de datos hay en cada columna?

df.dtypes

Unnamed: 0,0
fecha,object
producto,object
cantidad,float64
precio_unitario,int64


#### Limpiar el dataframe

*   Elimina duplicados
*   Llena los valores nulos de cantidad con 0
*   Reemplaza valores nulos de prodcuto con "Producto asociado"
*   Convierte fecha a formato datetime

In [16]:
# Eliminar duplicados

df.drop_duplicates(inplace=True)

In [36]:
# Llena valores nulos de cantidad con 0

df['cantidad'] = df['cantidad'].fillna(0)

In [37]:
df.head()

Unnamed: 0,fecha,producto,cantidad,precio_unitario
0,2024-01-01,Manzana,10.0,5
1,2024-01-02,Plátano,20.0,3
2,2024-01-03,Manzana,0.0,5
3,,Manzana,15.0,5
4,2024-01-05,,10.0,3


In [61]:
# Reemplaza los valores nulos de producto con "Producto desconocido"

df['producto'] = df['producto'].fillna('Producto asociado')

In [62]:
df.head()

Unnamed: 0,fecha,producto,cantidad,precio_unitario
0,2024-01-01,Manzana,10.0,5
1,2024-01-02,Plátano,20.0,3
2,2024-01-03,Manzana,,5
3,,Manzana,15.0,5
4,2024-01-05,Producto asociado,10.0,3


In [40]:
# Convierte fecha a formato datetime

df['fecha'] = pd.to_datetime(df['fecha'])

In [42]:
df.dtypes

Unnamed: 0,0
fecha,datetime64[ns]
producto,object
cantidad,float64
precio_unitario,int64


#### Vamos a crear una nueva columna total = cantidad * precio

In [44]:
# Vamos a crar una nueva columna

df['total'] = df['cantidad'] * df['precio_unitario']

In [45]:
df.head()

Unnamed: 0,fecha,producto,cantidad,precio_unitario,total
0,2024-01-01,Manzana,10.0,5,50.0
1,2024-01-02,Plátano,20.0,3,60.0
2,2024-01-03,Manzana,0.0,5,0.0
3,NaT,Manzana,15.0,5,75.0
4,2024-01-05,Producto desconocido,10.0,3,30.0


# Vamos a realizar lo mismo con Excel

In [52]:
# Importar archivo excel

df_excel = pd.read_excel('datos_simulados_con_errores.xlsx')
df_excel.head()

Unnamed: 0,fecha,producto,cantidad,precio_unitario
0,2024-01-01,Manzana,10.0,5
1,2024-01-02,Plátano,20.0,3
2,2024-01-03,Manzana,,5
3,,Manzana,15.0,5
4,2024-01-05,,10.0,3


#### Explorar el df

*   ¿cuantas filas y columnas tiene?
*   ¿Hay valores nulos?
*   ¿Qué tipo de datos hay en cada columna?

In [53]:
# ¿cuantas filas y columnas tiene?

df_excel.shape

(6, 4)

In [54]:
# ¿Hay valores nulos?

df_excel.isnull().sum()

Unnamed: 0,0
fecha,1
producto,1
cantidad,1
precio_unitario,0


In [55]:
# ¿Qué tipo de datos hay en cada columna?

df_excel.dtypes

Unnamed: 0,0
fecha,object
producto,object
cantidad,float64
precio_unitario,int64


#### Limpiar el dataframe

*   Elimina duplicados
*   Llena los valores nulos de cantidad con 0
*   Reemplaza valores nulos de prodcuto con "Producto asociado"
*   Convierte fecha a formato datetime

In [58]:
# Elimna duplicados

df_excel.drop_duplicates(inplace=True)

In [60]:
# Llena los valores nulos de cantidad con 0

df_excel['cantidad'] = df_excel['cantidad'].fillna(0)

In [64]:
# Reemplaza valores nulos con "Producto_asociado"

df_excel['producto'] = df_excel['producto'].fillna('Producto asociado')

df.head()

Unnamed: 0,fecha,producto,cantidad,precio_unitario
0,2024-01-01,Manzana,10.0,5
1,2024-01-02,Plátano,20.0,3
2,2024-01-03,Manzana,,5
3,,Manzana,15.0,5
4,2024-01-05,Producto asociado,10.0,3


In [65]:
# Convierte fecha a formato datetime

df_excel['fecha'] = pd.to_datetime(df_excel['fecha'])

In [66]:
df_excel.dtypes

Unnamed: 0,0
fecha,datetime64[ns]
producto,object
cantidad,float64
precio_unitario,int64


#### Vamos a crear una nueva columna total = cantidad * precio

In [67]:
# Vamos a crear una nueva columna

df_excel['total'] = df_excel['cantidad'] * df_excel['precio_unitario']

In [68]:
df_excel.head()

Unnamed: 0,fecha,producto,cantidad,precio_unitario,total
0,2024-01-01,Manzana,10.0,5,50.0
1,2024-01-02,Plátano,20.0,3,60.0
2,2024-01-03,Manzana,0.0,5,0.0
3,NaT,Manzana,15.0,5,75.0
4,2024-01-05,Producto asociado,10.0,3,30.0
