# Ejercicio de Análisis Exploratorio de Datos (EDA)

En este ejercicio utilizaremos el archivo facilitado en moodle: movies.csv



## 1. Configuración del Entorno y Carga de Datos.

Importamos las librerías necesarias y cargamos nuestro conjunto de datos. Pandas es la herramienta principal para la manipulación de datos, mientras que Matplotlib y Seaborn se utilizan para la visualización.

In [1]:
import pandas as pd
import plotly.express as px

df = pd.read_csv("04_3movies.csv", sep=";")

Mostramos las primeras 5 filas para verificar la carga

In [2]:
df.head()

Unnamed: 0,Movie,Year,Ratings,Genre,Gross,Budget,Screens,Sequel,Sentiment,Views,Likes,Dislikes,Comments,Aggregate Followers
0,13 Sins,2014.0,63,Adventure,9130.0,4000000,45.0,1.0,0.0,3280543.0,4632.0,425.0,636.0,1120000.0
1,22 Jump Street,2014.0,71,Comedy,192000000.0,50000000,3306.0,2.0,2.0,583289.0,3465.0,61.0,186.0,12350000.0
2,3 Days to Kill,2014.0,62,Comedy,30700000.0,28000000,2872.0,1.0,0.0,304861.0,328.0,34.0,47.0,483000.0
3,300: Rise of an Empire,2014.0,63,Comedy,106000000.0,110000000,3470.0,2.0,0.0,452917.0,2429.0,132.0,590.0,568000.0
4,A Haunted House 2,2014.0,47,Adventure,17300000.0,3500000,2310.0,2.0,0.0,3145573.0,12163.0,610.0,1082.0,1923800.0


## 2. Exploración Inicial de los Datos


Antes de cualquier análisis, es crucial entender la estructura de los datos. Exploramos los tipos de datos, la cantidad de valores no nulos y las estadísticas descriptivas.

Muestra información general sobre el DataFrame

In [3]:
df.info()

<class 'pandas.DataFrame'>
RangeIndex: 232 entries, 0 to 231
Data columns (total 14 columns):
 #   Column               Non-Null Count  Dtype  
---  ------               --------------  -----  
 0   Movie                231 non-null    str    
 1   Year                 231 non-null    float64
 2   Ratings              231 non-null    str    
 3   Genre                221 non-null    str    
 4   Gross                231 non-null    float64
 5   Budget               230 non-null    str    
 6   Screens              221 non-null    float64
 7   Sequel               231 non-null    float64
 8   Sentiment            231 non-null    float64
 9   Views                231 non-null    float64
 10  Likes                231 non-null    float64
 11  Dislikes             231 non-null    float64
 12  Comments             231 non-null    float64
 13  Aggregate Followers  196 non-null    float64
dtypes: float64(10), str(4)
memory usage: 25.5 KB


Estadísticas descriptivas para columnas numéricas:

In [4]:
df.describe()

Unnamed: 0,Year,Gross,Screens,Sequel,Sentiment,Views,Likes,Dislikes,Comments,Aggregate Followers
count,231.0,231.0,221.0,231.0,231.0,231.0,231.0,231.0,231.0,196.0
mean,2014.294372,68066030.0,2209.244344,1.359307,2.809524,3712851.0,12732.536797,679.051948,1825.701299,3038193.0
std,0.45675,88902890.0,1463.767755,0.967241,6.996775,4511104.0,28825.484481,1243.929481,3571.040447,4886278.0
min,2014.0,2470.0,2.0,1.0,-38.0,698.0,1.0,0.0,0.0,1066.0
25%,2014.0,10300000.0,449.0,1.0,0.0,623302.0,1776.5,105.5,248.5,183025.0
50%,2014.0,37400000.0,2777.0,1.0,0.0,2409338.0,6096.0,341.0,837.0,1052600.0
75%,2015.0,89350000.0,3372.0,1.0,5.5,5217380.0,15247.5,697.5,2137.0,3694500.0
max,2015.0,643000000.0,4324.0,7.0,29.0,32626780.0,370552.0,13960.0,38363.0,31030000.0


Contamos la cantidad de filas duplicadas en el conjunto de datos

In [5]:
df.value_counts()

Movie                           Year    Ratings  Genre      Gross        Budget     Screens  Sequel  Sentiment  Views      Likes    Dislikes  Comments  Aggregate Followers
13 Sins                         2014.0  6,3      Adventure  9130.0       4000000    45.0     1.0     0.0        3280543.0  4632.0   425.0     636.0     1120000.0              1
22 Jump Street                  2014.0  7,1      Comedy     192000000.0  50000000   3306.0   2.0     2.0        583289.0   3465.0   61.0      186.0     12350000.0             1
3 Days to Kill                  2014.0  6,2      Comedy     30700000.0   28000000   2872.0   1.0     0.0        304861.0   328.0    34.0      47.0      483000.0               1
300: Rise of an Empire          2014.0  6,3      Comedy     106000000.0  110000000  3470.0   2.0     0.0        452917.0   2429.0   132.0     590.0     568000.0               1
A Haunted House 2               2014.0  4,7      Adventure  17300000.0   3500000    2310.0   2.0     0.0        3145573.

## 3. Limpieza y Preparación de Datos

A partir de la exploración inicial, es posible que encontremos problemas. Por ejemplo, la columna

Ratings tiene un tipo de dato object y contiene comas (,) en lugar de puntos (.) como separador decimal. Además, algunas columnas como Screens o Budget pueden contener valores faltantes

En las columnas 'Ratings' y 'Budget' reemplazamos las comas por puntos y convertimos la columna a tipo numérico (float)


In [6]:
df["Ratings"] = df["Ratings"].str.replace(",", ".").astype(float)
df["Budget"] = df["Budget"].str.replace(",", ".").astype(float)

Sustituímos los valores faltantes en las columnas numéricas con la mediana.
Elegimos la mediana para no ser sensible a valores atípicos

In [7]:
for col in df.select_dtypes(include="float"):
    mediana = df[col].median()
    df[col] = df[col].fillna(mediana)

Eliminamos las filas que tienen NAN en la columna 'Genre'

In [8]:
df = df.dropna(subset=["Genre"])

Verificamos los cambios después de la limpieza

In [9]:
df.info()

<class 'pandas.DataFrame'>
Index: 221 entries, 0 to 229
Data columns (total 14 columns):
 #   Column               Non-Null Count  Dtype  
---  ------               --------------  -----  
 0   Movie                221 non-null    str    
 1   Year                 221 non-null    float64
 2   Ratings              221 non-null    float64
 3   Genre                221 non-null    str    
 4   Gross                221 non-null    float64
 5   Budget               221 non-null    float64
 6   Screens              221 non-null    float64
 7   Sequel               221 non-null    float64
 8   Sentiment            221 non-null    float64
 9   Views                221 non-null    float64
 10  Likes                221 non-null    float64
 11  Dislikes             221 non-null    float64
 12  Comments             221 non-null    float64
 13  Aggregate Followers  221 non-null    float64
dtypes: float64(12), str(2)
memory usage: 25.9 KB


## 4. Visualización para la Obtención de Perspectivas

La visualización es fundamental para encontrar patrones y relaciones en los datos.

Dibujamos el histograma de la Distribución de Calificaciones (Ratings)

In [10]:
fig = px.histogram(df, x="Ratings", nbins=20, title="Histograma de Calificaciones")
fig.show()

Gráfico de Barras de los 10 Géneros con más películas

In [11]:
top10 = df['Genre'].value_counts().head(10).reset_index()
top10.columns = ['Genre', 'Count']

fig = px.bar(top10, x='Genre', y='Count', title='Top 10 Géneros de Películas')
fig.show()

Gráfico de Dispersión: Relación entre Presupuesto y Recaudación

In [17]:
fig = px.scatter(df, x='Budget', y='Gross',
                 title='Presupuesto vs Recaudación',
                 labels={'Budget': 'Presupuesto', 'Gross': 'Recaudación'},
                 trendline='ols') # pip install statsmodels
fig.show()

¿Podemos afirmar que a mayor presupuesto mayor es la recaudación de la película?

La tendencia muestra bastante correlación, pero el presupuesto no asegura mayor recaudación

In [15]:
float_cols = df.select_dtypes(include='float')

corr_matrix = float_cols.corr()

print(corr_matrix)

                         Year   Ratings     Gross    Budget   Screens  \
Year                 1.000000  0.021243  0.134235  0.104222  0.244730   
Ratings              0.021243  1.000000  0.335930  0.260578  0.046770   
Gross                0.134235  0.335930  1.000000  0.718897  0.568999   
Budget               0.104222  0.260578  0.718897  1.000000  0.581741   
Screens              0.244730  0.046770  0.568999  0.581741  1.000000   
Sequel               0.111195  0.086659  0.420160  0.460423  0.261868   
Sentiment            0.239302  0.117482 -0.028773  0.012647 -0.034762   
Views                0.235050  0.032635  0.177511  0.129587  0.242788   
Likes                0.090555  0.077942  0.106918  0.010989  0.160215   
Dislikes             0.253122 -0.178944  0.163860  0.112193  0.260362   
Comments             0.048186  0.018797  0.123329  0.091763  0.195518   
Aggregate Followers -0.034848  0.048036  0.313417  0.197625  0.206400   

                       Sequel  Sentiment     Views

Como ya tenemos el los datos en el Dataframe limpios lo guardamos en el archivo: movies_limpio.csv

In [16]:
df.to_csv("movies_limpio.csv", index=False)