##### Vamos a trabajar con 8 archivos csv con información sobre calificaciones otorgadas a películas por usuarios. Los archivos llevan por nombre '1.csv', '2.csv', ..., '8.csv'

In [1]:
import pandas as pd
import numpy as np

Creamos un diccionario con nombre 'archivos' donde almacenaremos los dataframes de cada archivos csv.
Cargamos los archivos a data frames con nombres relacionados por número: '1.csv' será 'df1', '2.csv' será 'df2' y así sucesivamente. 

In [16]:
archivos = {}
for i in range(1,9):
    archivos['df' + str(i)] = pd.read_csv(f"{i}.csv")

Revisamos el número de filas y columnas de cada dataframe

In [24]:
for df in archivos.keys():
    print(df, archivos[df].shape)

df1 (1500000, 4)
df2 (1500000, 4)
df3 (1500000, 4)
df4 (1500000, 4)
df5 (1500000, 4)
df6 (1500000, 4)
df7 (524289, 4)
df8 (1500000, 4)


Revisamos valores faltantes en cada dataframe

In [19]:
for df in archivos.keys():
    print(df, archivos[df].isna().sum().sum())

df1 0
df2 0
df3 0
df4 0
df5 0
df6 0
df7 0
df8 0


Revisamos si los dataframes tienen nombres de columnas iguales

In [21]:
for df in archivos.keys():
    if df == 'df1':
        columnas = archivos[df].columns
        print(columnas)
    else: 
        print(df, archivos[df].columns == columnas)

Index(['userId', 'rating', 'timestamp', 'movieId'], dtype='object')
df2 [ True  True  True  True]
df3 [ True  True  True  True]
df4 [ True  True  True  True]
df5 [ True  True  True  True]
df6 [ True  True  True  True]
df7 [ True  True  True  True]
df8 [ True  True  True  True]


Revisamos que las columnas de cada archivo tengan el mismo data type

In [28]:
data_types = list(archivos['df1'].dtypes)
print(data_types)
for df in archivos.keys():
    print(f"{df} Mismos data types: {list(archivos[df].dtypes) == data_types}")

[dtype('int64'), dtype('float64'), dtype('int64'), dtype('O')]
df1 Mismos data types: True
df2 Mismos data types: True
df3 Mismos data types: True
df4 Mismos data types: True
df5 Mismos data types: True
df6 Mismos data types: True
df7 Mismos data types: True
df8 Mismos data types: True


Concatenamos los dataframes en data frame final, al que llamaremos 'reviews'

In [46]:
df_list = [archivos[df] for df in archivos]
reviews = pd.concat(df_list)

Verificamos que reviews tenga el mismo número de filas que la suma de filas de los ocho DataFrames 

In [40]:
suma_filas = []
for df in archivos.keys():
    suma_filas.append(archivos[df].shape[0])
print(reviews.shape[0] == sum(suma_filas))
print(f"reviews_filas: {reviews.shape[0]}, suma_filas: {sum(suma_filas)}")

True
reviews_filas: 11024289, suma_filas: 11024289


In [41]:
reviews.head(5)

Unnamed: 0,userId,rating,timestamp,movieId
0,1,1.0,1425941529,as680
1,1,4.5,1425942435,ns2186
2,1,5.0,1425941523,hs2381
3,1,5.0,1425941546,ns3663
4,1,5.0,1425941556,as9500


Reiniciamos el índice

In [47]:
reviews.drop(['timestamp'], axis=1, inplace=True)

In [48]:
reviews.reset_index(drop=True, inplace=True)

In [49]:
reviews.head(5)

Unnamed: 0,userId,rating,movieId
0,1,1.0,as680
1,1,4.5,ns2186
2,1,5.0,hs2381
3,1,5.0,ns3663
4,1,5.0,as9500


Filas duplicadas

In [83]:
duplicados = reviews.duplicated(['userId', 'rating', 'movieId'])
num_duplicados = sum(duplicados)
print('Número de filas duplicadas en data frame "reviews":', num_duplicados)

Número de filas duplicadas en data frame "reviews": 28655


Removiendo filas duplicadas

In [84]:
reviews = reviews.drop_duplicates()

reviews_new_shape = reviews.shape
if (sum(suma_filas) - num_duplicados) == (reviews_new_shape[0]):
    print('Operación exitosa')
elif (sum(suma_filas) - num_duplicados) < (reviews_new_shape[0]):
    print('Se quitaron filas de menos')
else:
    print('Se quitaron fila de más')

Operación exitosa


In [93]:
reviews.shape

(10995634, 3)

In [94]:
reviews.head(2)

Unnamed: 0,userId,rating,movieId
0,1,1.0,as680
1,1,4.5,ns2186


Hasta aquí termina la primera parte. Se exporta el data frame resultante a un archivo csv. 

In [95]:
reviews.to_csv('reviews.csv', index=False)