<a href="https://colab.research.google.com/github/ipsilon7/Analisis-de-datos-de-IMDb/blob/main/Proceso_ETL.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

## **Extraccion**

La fuente de datos es de tipo estructurada (CSV). Al momento de cargar los datos se utiliza el parametro dtype para que la carga sea mas rapida (debido a que pandas no infiere automaticamente el tipo de dato), use menos memoria y las operaciones y filtrados de datos sean mas eficientes. Imprimimos los tipos de datos, para comprobar que se haya cargado correctamente, y el uso de memoria.

In [1]:
import pandas as pd

# URL del archivo en GitHub
url = 'https://raw.githubusercontent.com/ipsilon7/Analisis-de-datos-de-IMDb/refs/heads/main/Database/IMDb%20database.csv'

# Cargar el archivo CSV desde GitHub
df = pd.read_csv(url, dtype={
    "id": "string",
    "title": "string",
    "type": "category",
    "genres": "string",
    "averageRating": "float32",
    "numVotes": "Int32", # Int32 con mayúscula para permitir NaN
    "releaseYear": "Int16" # También permite NaN
})

print(df.dtypes)
print(f"Uso de memoria: {df.memory_usage(deep=True).sum() / (1024**2):.2f} MB")

id               string[python]
title            string[python]
type                   category
genres           string[python]
averageRating           float32
numVotes                  Int32
releaseYear               Int16
dtype: object
Uso de memoria: 219.42 MB


Comprobaremos que el tamaño del dataset y la cantidad de columnas sea correcto y le daremos un vistazo rapido a los datos.

In [3]:
# Mostramos las primeras 5 filas del DataFrame
print(df.head())

          id                          title   type  \
0  tt0000009                     Miss Jerry  movie   
1  tt0000147  The Corbett-Fitzsimmons Fight  movie   
2  tt0000502                       Bohemios  movie   
3  tt0000574    The Story of the Kelly Gang  movie   
4  tt0000591               The Prodigal Son  movie   

                         genres  averageRating  numVotes  releaseYear  
0                       Romance            5.4       215         1894  
1      Documentary, News, Sport            5.2       539         1897  
2                          <NA>            4.4        18         1905  
3  Action, Adventure, Biography            6.0       939         1906  
4                         Drama            5.7        28         1907  


In [6]:
# Mostramos las ultimas 5 filas del DataFrame
print(df.tail())

                 id                         title   type           genres  \
1029441  tt34605925                     Aitraaz 2  movie             <NA>   
1029442  tt34606028                  Tukar Takdir  movie  Drama, Thriller   
1029443  tt34606054                    Regnmannen  movie            Drama   
1029444  tt34606065                    Victor 303  movie            Drama   
1029445  tt34606074  Lady and a Loser go to Vegas  movie         Thriller   

         averageRating  numVotes  releaseYear  
1029441            NaN      <NA>         <NA>  
1029442            NaN      <NA>         <NA>  
1029443            NaN      <NA>         <NA>  
1029444            NaN      <NA>         2025  
1029445            NaN      <NA>         <NA>  


In [4]:
# Mostramos información general del DataFrame
print(df.info())

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1029446 entries, 0 to 1029445
Data columns (total 7 columns):
 #   Column         Non-Null Count    Dtype   
---  ------         --------------    -----   
 0   id             1029446 non-null  string  
 1   title          1029446 non-null  string  
 2   type           1029446 non-null  category
 3   genres         928808 non-null   string  
 4   averageRating  439071 non-null   float32 
 5   numVotes       439071 non-null   Int32   
 6   releaseYear    900924 non-null   Int16   
dtypes: Int16(1), Int32(1), category(1), float32(1), string(3)
memory usage: 36.3 MB
None


In [5]:
# Mostramos estadísticas descriptivas del DataFrame
print(df.describe())

       averageRating      numVotes  releaseYear
count  439071.000000      439071.0     900924.0
mean        6.363222   3047.631873  1998.267213
std         1.431767  32668.064801    27.054087
min         1.000000           5.0       1894.0
25%         5.500000          17.0       1986.0
50%         6.500000          52.0       2010.0
75%         7.400000         260.0       2018.0
max        10.000000     2963270.0       2031.0


## **Transformacion**