# Proyecto 1
# Apellidos y Nombres: Sales Risco, Zaida Maria Kary 

## Contexto del dataset

Se trata de un conjunto de datos transnacional que contiene todas las transacciones ocurridas entre el 01/12/2010 y el 09/12/2011 para una empresa de venta al por menor en línea sin tienda, registrada y con sede en el Reino Unido. La empresa vende principalmente regalos únicos para todas las ocasiones. Muchos clientes de la empresa son mayoristas. Ver más detalle del dataset [aquí](https://www.kaggle.com/datasets/carrie1/ecommerce-data)

## Lectura de archivos

1. Lea todo el contenido de la carpeta "proyecto/data", guarde todo el contenido en un mismo dataframe con nombre ecommerce_df.
Utilice una codificación "latin-1".  
Verifique por qué es importante la codificación elegida.  
Recursos de ayuda [aquí](https://j2logo.com/python/listar-directorio-en-python/)

In [1]:
import os
import pandas as pd

data_folder = "data" # Ruta de la carpeta
archivos = [
    f for f in os.listdir(data_folder)
    if f.endswith('.csv') and f != 'proyecciones_mensuales_uk.csv'
]

# Se lee y concatena todos los archivos CSV usando latin-1
dfs = []
for archivo in archivos:
    ruta = os.path.join(data_folder, archivo)
    df = pd.read_csv(ruta, encoding='latin-1')
    dfs.append(df)

ecommerce_df = pd.concat(dfs, ignore_index=True)

ecommerce_df

Unnamed: 0,InvoiceNo,StockCode,Description,Quantity,InvoiceDate,UnitPrice,CustomerID,Country
0,550644,22722,SET OF 6 SPICE TINS PANTRY DESIGN,7,4/19/2011 16:19,3.95,12733.0,USA
1,550644,22979,PANTRY WASHING UP BRUSH,2,4/19/2011 16:19,1.45,12733.0,USA
2,550644,84987,SET OF 36 TEATIME PAPER DOILIES,3,4/19/2011 16:19,1.45,12733.0,USA
3,550644,22720,SET OF 3 CAKE TINS PANTRY DESIGN,1,4/19/2011 16:19,4.95,12733.0,USA
4,550644,22993,SET OF 4 PANTRY JELLY MOULDS,1,4/19/2011 16:19,1.25,12733.0,USA
...,...,...,...,...,...,...,...,...
541904,581587,22613,PACK OF 20 SPACEBOY NAPKINS,12,12/9/2011 12:50,0.85,12680.0,France
541905,581587,22899,CHILDREN'S APRON DOLLY GIRL,6,12/9/2011 12:50,2.10,12680.0,France
541906,581587,23254,CHILDRENS CUTLERY DOLLY GIRL,4,12/9/2011 12:50,4.15,12680.0,France
541907,581587,23255,CHILDRENS CUTLERY CIRCUS PARADE,4,12/9/2011 12:50,4.15,12680.0,France


=================== Código de ayuda para formatear las fechas =====================

In [2]:
def parse_fecha(date):
    for fmt in ("%m/%d/%Y %H:%M:%S",   # cuando tiene segundos
                "%m/%d/%Y %H:%M"):     # cuando no tiene
        try:
            return pd.to_datetime(date, format=fmt)
        except ValueError:
            pass
    return pd.NaT  # si no encaja en ninguno

# Aplicas la función a cada elemento de la serie
ecommerce_df['InvoiceDate'] = ecommerce_df['InvoiceDate'].apply(parse_fecha)

In [3]:
ecommerce_df

Unnamed: 0,InvoiceNo,StockCode,Description,Quantity,InvoiceDate,UnitPrice,CustomerID,Country
0,550644,22722,SET OF 6 SPICE TINS PANTRY DESIGN,7,2011-04-19 16:19:00,3.95,12733.0,USA
1,550644,22979,PANTRY WASHING UP BRUSH,2,2011-04-19 16:19:00,1.45,12733.0,USA
2,550644,84987,SET OF 36 TEATIME PAPER DOILIES,3,2011-04-19 16:19:00,1.45,12733.0,USA
3,550644,22720,SET OF 3 CAKE TINS PANTRY DESIGN,1,2011-04-19 16:19:00,4.95,12733.0,USA
4,550644,22993,SET OF 4 PANTRY JELLY MOULDS,1,2011-04-19 16:19:00,1.25,12733.0,USA
...,...,...,...,...,...,...,...,...
541904,581587,22613,PACK OF 20 SPACEBOY NAPKINS,12,2011-12-09 12:50:00,0.85,12680.0,France
541905,581587,22899,CHILDREN'S APRON DOLLY GIRL,6,2011-12-09 12:50:00,2.10,12680.0,France
541906,581587,23254,CHILDRENS CUTLERY DOLLY GIRL,4,2011-12-09 12:50:00,4.15,12680.0,France
541907,581587,23255,CHILDRENS CUTLERY CIRCUS PARADE,4,2011-12-09 12:50:00,4.15,12680.0,France


===========================================

## Propiedades básicas.

2. Cambie los nombres de columnas del dataset a:
```
[nroFactura, codigoStock, descripcion, cantidad, fechaFactura, precioUnidad, idCliente, pais]
```

In [4]:
ecommerce_df.columns = [
    'nroFactura', 
    'codigoStock', 
    'descripcion', 
    'cantidad', 
    'fechaFactura', 
    'precioUnidad', 
    'idCliente', 
    'pais'
]

ecommerce_df

Unnamed: 0,nroFactura,codigoStock,descripcion,cantidad,fechaFactura,precioUnidad,idCliente,pais
0,550644,22722,SET OF 6 SPICE TINS PANTRY DESIGN,7,2011-04-19 16:19:00,3.95,12733.0,USA
1,550644,22979,PANTRY WASHING UP BRUSH,2,2011-04-19 16:19:00,1.45,12733.0,USA
2,550644,84987,SET OF 36 TEATIME PAPER DOILIES,3,2011-04-19 16:19:00,1.45,12733.0,USA
3,550644,22720,SET OF 3 CAKE TINS PANTRY DESIGN,1,2011-04-19 16:19:00,4.95,12733.0,USA
4,550644,22993,SET OF 4 PANTRY JELLY MOULDS,1,2011-04-19 16:19:00,1.25,12733.0,USA
...,...,...,...,...,...,...,...,...
541904,581587,22613,PACK OF 20 SPACEBOY NAPKINS,12,2011-12-09 12:50:00,0.85,12680.0,France
541905,581587,22899,CHILDREN'S APRON DOLLY GIRL,6,2011-12-09 12:50:00,2.10,12680.0,France
541906,581587,23254,CHILDRENS CUTLERY DOLLY GIRL,4,2011-12-09 12:50:00,4.15,12680.0,France
541907,581587,23255,CHILDRENS CUTLERY CIRCUS PARADE,4,2011-12-09 12:50:00,4.15,12680.0,France


3. ¿El dataset está listo para análisis rápido y confiable?. Responder las siguientes preguntas.

- ¿Cuántas filas y columnas tiene el dataset?
- ¿Qué tipo de dato presenta cada columna?
- ¿Cuántos valores faltantes hay en idCliente y en descripcion? (df.isna().sum())  
Nota: Para más información sobre isna revisar [aquí](https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.isna.html)

In [5]:
filas, columnas = ecommerce_df.shape
print(f"El dataset tiene {filas} filas y {columnas} columnas.")

El dataset tiene 541909 filas y 8 columnas.


In [6]:
print("Tipo de dato de cada columna:")
print(ecommerce_df.dtypes)

Tipo de dato de cada columna:
nroFactura              object
codigoStock             object
descripcion             object
cantidad                 int64
fechaFactura    datetime64[ns]
precioUnidad           float64
idCliente              float64
pais                    object
dtype: object


In [7]:
print("Valores faltantes en idCliente:", ecommerce_df['idCliente'].isna().sum())
print("Valores faltantes en descripcion:", ecommerce_df['descripcion'].isna().sum())

Valores faltantes en idCliente: 135080
Valores faltantes en descripcion: 1454


4. De lo anterior analice, ¿qué se podría hacer con las facturas sin clientes registrados?

- Si se va a realizar análisis de clientes es recomendable eliminarlas.
- Si es para análisis de ventas totales se puede mantener.

5. Finanzas necesita entender la magnitud de unidades y precios para presupuestar.  
¿Cuál es la factura con mayor cantidad y cuál con mayor precioUnidad?  
Nota: Puede revisar el método [nlargest](https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.nlargest.html),  [nsmallest](https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.nsmallest.html) y
[sort_values](https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.sort_values.html)

In [8]:
factura_mayor_cantidad = ecommerce_df.nlargest(1, 'cantidad')
print("Factura con mayor cantidad:")
factura_mayor_cantidad

Factura con mayor cantidad:


Unnamed: 0,nroFactura,codigoStock,descripcion,cantidad,fechaFactura,precioUnidad,idCliente,pais
522484,581483,23843,"PAPER CRAFT , LITTLE BIRDIE",80995,2011-12-09 09:15:00,2.08,16446.0,United Kingdom


In [9]:
factura_mayor_precio = ecommerce_df.nlargest(1, 'precioUnidad')
print("\nFactura con mayor precioUnidad:")
factura_mayor_precio


Factura con mayor precioUnidad:


Unnamed: 0,nroFactura,codigoStock,descripcion,cantidad,fechaFactura,precioUnidad,idCliente,pais
233270,C556445,M,Manual,-1,2011-06-10 15:31:00,38970.0,15098.0,United Kingdom


## Indexación

6. Selecciona todas las facturas de mayo de 2011.

In [10]:
facturas_mayo_2011 = ecommerce_df[
    (ecommerce_df['fechaFactura'].dt.year == 2011) &
    (ecommerce_df['fechaFactura'].dt.month == 5)
]
facturas_mayo_2011

Unnamed: 0,nroFactura,codigoStock,descripcion,cantidad,fechaFactura,precioUnidad,idCliente,pais
435,C551585,22779,WOODEN OWLS LIGHT GARLAND,-2,2011-05-03 11:23:00,4.25,12483.0,Sweden
436,C551864,22779,WOODEN OWLS LIGHT GARLAND,-2,2011-05-04 16:18:00,4.25,12483.0,Sweden
437,552717,22779,WOODEN OWLS LIGHT GARLAND,2,2011-05-11 09:42:00,4.25,12483.0,Sweden
438,552957,84991,60 TEATIME FAIRY CAKE CASES,240,2011-05-12 12:36:00,0.55,17404.0,Sweden
439,552957,84987,SET OF 36 TEATIME PAPER DOILIES,144,2011-05-12 12:36:00,1.45,17404.0,Sweden
...,...,...,...,...,...,...,...,...
536398,555096,22989,SET 2 PANTRY DESIGN TEA TOWELS,6,2011-05-31 13:32:00,3.25,12682.0,France
536399,555096,21700,BIG DOUGHNUT FRIDGE MAGNETS,12,2011-05-31 13:32:00,0.85,12682.0,France
536400,555096,23155,KNICKERBOCKERGLORY MAGNET ASSORTED,12,2011-05-31 13:32:00,0.83,12682.0,France
536401,555096,POST,POSTAGE,3,2011-05-31 13:32:00,18.00,12682.0,France


7. ¿Qué rango de fechas cubre el histórico?

In [11]:
fecha_min = ecommerce_df['fechaFactura'].min()
fecha_max = ecommerce_df['fechaFactura'].max()
print(f"El histórico cubre desde {fecha_min} hasta {fecha_max}.")

El histórico cubre desde 2010-12-01 08:26:00 hasta 2011-12-09 12:50:00.


8. ¿Cuántas transacciones registró el cliente 17850?.  
Nota: Puede apoyarse del método [unique](https://pandas.pydata.org/docs/reference/api/pandas.unique.html)

In [12]:
transacciones_17850 = ecommerce_df[ecommerce_df['idCliente'] == 17850]['nroFactura'].nunique()
print(f"El cliente 17850 registró {transacciones_17850} transacciones.")

El cliente 17850 registró 35 transacciones.


## Manipulación de columnas

¿Cómo construir métricas clave derivadas?

Cálculo de ingresos
9. Finanzas requiere el ingreso real por factura.

- Crea la columna montoTotal = cantidad * precioUnidad.  
- Muestra los 5 pedidos con mayor montoTotal.

In [13]:
ecommerce_df['montoTotal'] = ecommerce_df['cantidad'] * ecommerce_df['precioUnidad']

In [14]:
ecommerce_df.nlargest(5, 'montoTotal')

Unnamed: 0,nroFactura,codigoStock,descripcion,cantidad,fechaFactura,precioUnidad,idCliente,pais,montoTotal
522484,581483,23843,"PAPER CRAFT , LITTLE BIRDIE",80995,2011-12-09 09:15:00,2.08,16446.0,United Kingdom,168469.6
86076,541431,23166,MEDIUM CERAMIC TOP STORAGE JAR,74215,2011-01-18 10:01:00,1.04,12346.0,United Kingdom,77183.6
233269,556444,22502,PICNIC BASKET WICKER 60 PIECES,60,2011-06-10 15:28:00,649.5,15098.0,United Kingdom,38970.0
42631,537632,AMAZONFEE,AMAZON FEE,1,2010-12-07 15:08:00,13541.33,,United Kingdom,13541.33
302910,A563185,B,Adjust bad debt,1,2011-08-12 14:50:00,11062.06,,United Kingdom,11062.06


Limpieza de descripciones

10. BI necesita descripciones uniformes para análisis de producto.

- Aplica .str.strip().str.lower() sobre descripcion. Analice los cambios realizados en el dataframe.  
- Elimine filas donde descripcion quede vacía tras limpiar.

In [15]:
ecommerce_df['descripcion'] = ecommerce_df['descripcion'].str.strip().str.lower() # Se hace limpieza a la columna descripcion
ecommerce_df = ecommerce_df[ecommerce_df['descripcion'] != ''] # Se elimina filas donde descripcion quede vacía tras limpiar
ecommerce_df = ecommerce_df[~ecommerce_df['descripcion'].isna()] # Se elimina filas donde descripcion sea NaN
ecommerce_df['descripcion'].sample(10)

460723           zinc metal heart decoration
245376             red retrospot shopper bag
438245                 feltcraft cushion owl
521115                    jumbo bag alphabet
273681          magic drawing slate spaceboy
464324    set of 72 retrospot paper  doilies
99699                jumbo bag red retrospot
48740                     red kitchen scales
203831        toilet sign occupied or vacant
158162               lunch box i love london
Name: descripcion, dtype: object

Columnas derivadas

11. Marketing segmenta tamaños de pedido para promociones.

Crea tamanoPedido con etiquetas:

“pequenio” (< 5 ítems)

“mediano” (5–20 ítems)

“grande” (> 20 ítems)

¿Qué proporción cae en cada categoría?

In [16]:
import numpy as np

condiciones = [
    ecommerce_df['cantidad'] < 5,
    ecommerce_df['cantidad'].between(5, 20, inclusive='both'),
    ecommerce_df['cantidad'] > 20
]
etiquetas = ['pequeño', 'mediano', 'grande']

ecommerce_df['tamanoPedido'] = np.select(condiciones, etiquetas, default='sin_categoria')

proporcion = ecommerce_df['tamanoPedido'].value_counts(normalize=True)
proporcion

tamanoPedido
pequeño    0.583166
mediano    0.311510
grande     0.105324
Name: proportion, dtype: float64

## Selección condicional

¿Cómo focalizar el análisis en casos críticos?
12. Gerencia revisa pedidos superiores a £1 000 para auditoría.

Mostrar las facturas que tienen un monto mayor a 1000 £.

¿Cuántos clientes únicos realizaron esos pedidos?

In [17]:
facturas_auditoria = ecommerce_df[ecommerce_df['montoTotal'] > 1000] # Se filtra las facturas con montoTotal mayor a 1000 £
facturas_auditoria

Unnamed: 0,nroFactura,codigoStock,descripcion,cantidad,fechaFactura,precioUnidad,idCliente,pais,montoTotal,tamanoPedido
292,538848,85232B,set of 3 babushka stacking tins,240,2010-12-14 13:28:00,4.95,17404.0,Sweden,1188.00,grande
2122,554155,M,manual,1,2011-05-23 11:26:00,1241.98,12757.0,Portugal,1241.98,pequeño
2123,554301,M,manual,1,2011-05-23 14:46:00,1241.98,12757.0,Portugal,1241.98,pequeño
7610,540267,22720,set of 3 cake tins pantry design,240,2011-01-06 11:12:00,4.25,12415.0,Australia,1020.00,grande
7816,545475,21217,red retrospot round cake tins,120,2011-03-03 10:59:00,8.95,12415.0,Australia,1074.00,grande
...,...,...,...,...,...,...,...,...,...,...
523567,581498,DOT,dotcom postage,1,2011-12-09 10:26:00,1714.17,,United Kingdom,1714.17,pequeño
535483,548913,M,manual,1,2011-04-05 09:45:00,1136.30,12669.0,France,1136.30,pequeño
539882,573077,M,manual,1,2011-10-27 14:13:00,4161.06,12536.0,France,4161.06,pequeño
539884,573080,M,manual,1,2011-10-27 14:20:00,4161.06,12536.0,France,4161.06,pequeño


In [18]:
clientes_unicos = facturas_auditoria['idCliente'].nunique()
print(f"Número de clientes únicos con pedidos > 1000 £: {clientes_unicos}")

Número de clientes únicos con pedidos > 1000 £: 57


Datos inconsistentes

13. Control de calidad detecta devoluciones.
- Cuántas facturas tienen montos totales negativos?.  
Analice por qué puede ocurrir que sean negativos los montos totales.

In [19]:
facturas_negativas = ecommerce_df[ecommerce_df['montoTotal'] < 0]
cantidad_facturas_negativas = facturas_negativas['nroFactura'].nunique()
print(f"Número de facturas con monto total negativo: {cantidad_facturas_negativas}")

Número de facturas con monto total negativo: 3838


Los montos totales negativos generalmente indican devoluciones o notas de crédito, donde el cliente retorna productos y se registra un reembolso o ajuste negativo en la factura. También pueden deberse a errores de registro o correcciones administrativas.

## Group By

¿Dónde centrar inversiones por país y mes?  
14. Exportación quiere conocer sus 10 mejores mercados. Haga un top de los 10 mejores mercados para exportación.


In [20]:
top_mercados = (
    ecommerce_df.groupby('pais')['montoTotal']
    .sum()
    .sort_values(ascending=False)
    .head(10)
)

print("Los 10 mercados (país) con mayores ventas:")
print(top_mercados)

Los 10 mercados (país) con mayores ventas:
pais
United Kingdom    8187806.364
Netherlands        284661.540
EIRE               263276.820
Germany            221698.210
France             197403.900
Australia          137077.270
Switzerland         56385.350
Spain               54774.580
Belgium             40910.960
Sweden              36595.910
Name: montoTotal, dtype: float64


In [21]:
ecommerce_df['año'] = ecommerce_df['fechaFactura'].dt.year
ecommerce_df['mes'] = ecommerce_df['fechaFactura'].dt.month

top_mercados_mes = (
    ecommerce_df.groupby(['pais', 'año', 'mes'])['montoTotal']
    .sum()
    .reset_index()
    .sort_values('montoTotal', ascending=False)
    .head(10)
)
print("Los 10 mercados (país, año, mes) con mayores ventas:")
print(top_mercados_mes)

Los 10 mercados (país, año, mes) con mayores ventas:
               pais   año  mes   montoTotal
305  United Kingdom  2011   11  1282805.780
304  United Kingdom  2011   10   877438.190
303  United Kingdom  2011    9   862018.152
294  United Kingdom  2010   12   676742.620
299  United Kingdom  2011    5   596459.860
301  United Kingdom  2011    7   565479.841
297  United Kingdom  2011    3   559707.390
300  United Kingdom  2011    6   554478.350
302  United Kingdom  2011    8   539130.500
298  United Kingdom  2011    4   442254.041


Cliente más rentable:  
15. La empresa quiere premiar al cliente con el mayor monto total promedio, muestre a dicho cliente.

In [22]:
cliente_mas_rentable = (
    ecommerce_df.groupby('idCliente')['montoTotal']
    .mean()
    .sort_values(ascending=False)
    .head(1)
)
print("Cliente más rentable (mayor monto total promedio):")
print(cliente_mas_rentable) 

Cliente más rentable (mayor monto total promedio):
idCliente
15195.0    3861.0
Name: montoTotal, dtype: float64


## Joins

================== Recurso de ayuda [aquí](https://pandas.pydata.org/docs/reference/api/pandas.Series.dt.year.html) ===============

El área de ventas tiene las proyecciones de ingresos mensuales del año 2010 y 2011 para United Kingdom. El archivo tiene nombre "proyecciones_mensuales_uk.csv"

16. Se quiere saber en qué años y meses los ingresos alcanzaron el objetivo proyectado.   
Analice si se debe usar left, inner, outer o right join.

In [23]:
ingresos_uk = (
    ecommerce_df[ecommerce_df['pais'] == 'United Kingdom']
    .groupby(['año', 'mes'])['montoTotal']
    .sum()
    .reset_index()
    .rename(columns={'montoTotal': 'ingreso_real'})
)

proyecciones = pd.read_csv('./data/proyecciones_mensuales_uk.csv', sep=';')

df_comparacion = pd.merge(
    ingresos_uk,
    proyecciones,
    on=['año', 'mes'],
    how='inner' # Se usa 'inner' para mantener solo las filas con datos en ambas tablas
)

df_objetivo = df_comparacion[df_comparacion['ingreso_real'] >= df_comparacion['proyeccionIngreso']]

print("Años/Mes donde el ingreso real supera la proyección:")
print(df_objetivo[['año', 'mes', 'ingreso_real', 'proyeccionIngreso']])

Años/Mes donde el ingreso real supera la proyección:
    año  mes  ingreso_real  proyeccionIngreso
0  2010   12    676742.620             500000
1  2011    1    434308.300             400000
3  2011    3    559707.390             400000
5  2011    6    554478.350             500000
7  2011    8    539130.500             500000
8  2011    9    862018.152             800000
9  2011   11   1282805.780             900000


17. Se quiere saber en qué años y meses no se dispone de las proyecciones de ingresos para United Kingdom.   
Analice si se debe usar left, inner, outer o right join.   
Puede apoyarse del método [drop_duplicates](https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.drop_duplicates.html).

In [24]:
# Se une ingresos_uk con proyecciones usando left join
df_left = pd.merge(
    ingresos_uk,
    proyecciones,
    on=['año', 'mes'],
    how='left'
)

sin_proyeccion = df_left[df_left['proyeccionIngreso'].isna()] # Se filtra los meses donde no hay proyección (NaN)

sin_proyeccion = sin_proyeccion.drop_duplicates(subset=['año', 'mes']) # Se eliminan duplicados

print("Año/mes sin proyección:")
print(sin_proyeccion[['año', 'mes', 'ingreso_real']])

Año/mes sin proyección:
     año  mes  ingreso_real
4   2011    4    442254.041
10  2011   10    877438.190


18. Se quiere saber en qué años y meses tenemos datos de ingresos y también se tiene información de las proyecciones.  
Analice si se debe usar left, inner, outer o right join.

In [25]:
# Se une ingresos_uk y proyecciones solo donde hay datos en ambos usando inner join
df_coinciden = pd.merge(
    ingresos_uk,
    proyecciones,
    on=['año', 'mes'],
    how='inner'
)

print(df_coinciden[['año', 'mes', 'ingreso_real', 'proyeccionIngreso']])

     año  mes  ingreso_real  proyeccionIngreso
0   2010   12    676742.620             500000
1   2011    1    434308.300             400000
2   2011    2    408247.910             500000
3   2011    3    559707.390             400000
4   2011    5    596459.860             600000
5   2011    6    554478.350             500000
6   2011    7    565479.841             600000
7   2011    8    539130.500             500000
8   2011    9    862018.152             800000
9   2011   11   1282805.780             900000
10  2011   12    388735.430             500000


19. Cree un nuevo dataframe que tenga una columna de los ingresos mensuales y otra columna sobre los ingresos mensuales proyectadas. Puede ocurrir que se disponga de los ingresos mensuales y no de las proyecciones para un mes específico o viceversa.  
Analice si se debe usar left, inner, outer o right join.

In [26]:
# Se une ingresos_uk y proyecciones usando outer join para incluir todos los meses
df_full = pd.merge(
    ingresos_uk,
    proyecciones,
    on=['año', 'mes'],
    how='outer'
)

print(df_full[['año', 'mes', 'ingreso_real', 'proyeccionIngreso']])

     año  mes  ingreso_real  proyeccionIngreso
0   2010    1           NaN           400000.0
1   2010    2           NaN           500000.0
2   2010    3           NaN           400000.0
3   2010    4           NaN           300000.0
4   2010    5           NaN           350000.0
5   2010    6           NaN           400000.0
6   2010    7           NaN           500000.0
7   2010   12    676742.620           500000.0
8   2011    1    434308.300           400000.0
9   2011    2    408247.910           500000.0
10  2011    3    559707.390           400000.0
11  2011    4    442254.041                NaN
12  2011    5    596459.860           600000.0
13  2011    6    554478.350           500000.0
14  2011    7    565479.841           600000.0
15  2011    8    539130.500           500000.0
16  2011    9    862018.152           800000.0
17  2011   10    877438.190                NaN
18  2011   11   1282805.780           900000.0
19  2011   12    388735.430           500000.0


## Directorios

20. Guarde el dataframe resultante en la carpeta "proyecto/procesado", la carpeta debe estar al mismo nivel que la carpeta data. El nombre del archivo que contiene los resultados debe ser "ecommerce-data_procesado.csv".

In [27]:
import os

os.makedirs('procesado', exist_ok=True)

df_full.to_csv('./procesado/ecommerce-data_procesado.csv', index=False)