Se tiene un conjunto de datos que contiene información sobre 30 electrodomésticos diferentes. Tu tarea es analizar el conjunto de datos para entender mejor la información que contiene y detectar posibles problemas que puedan afectar el análisis. Para esto, debes realizar lo siguiente:
1.	Observa las primeras 5 filas del conjunto de datos para conocer qué tipo de información contiene y cómo está organizada.
2.	Revisa cuántas filas y columnas tiene el conjunto, además de qué tipo de datos hay en cada columna.
3.	Busca si hay datos faltantes en alguna columna, es decir, si hay espacios vacíos o información que falta. Si encuentras datos faltantes, piensa en cómo podrías solucionarlo (por ejemplo, eliminando esas filas o llenando esos espacios con algún valor que tenga sentido).
4.	Busca si hay filas que se repiten exactamente (duplicadas) y elimínalas para que no afecten los resultados.
5.	Obtén un resumen con estadísticas básicas de los datos numéricos, para entender rangos, promedios y detectar posibles valores extraños.
6.	Verifica que los tipos de datos (texto o números) para cada columna.


# **Importa Librerias**

In [2]:
import pandas as pd
import csv
from google.colab import files
import numpy as np

In [29]:
files.upload()
archivo_csv = 'electrodomesticos.csv'

#Carga Dataset(defino el separador, para asegurarme de poder leerlo correctamente)
with open(archivo_csv, 'r', encoding='utf-8') as f:
    sample = f.read(2048)
    dialect = csv.Sniffer().sniff(sample)

df_electro= pd.read_csv(archivo_csv, sep=dialect.delimiter)



Saving electrodomesticos.csv to electrodomesticos (2).csv


In [35]:
df_electro.head()
print(df_electro)

          Nombre  Precio  Peso_kg  Potencia_W  Año_Fabricación
0       Lavadora   450.0     70.0       500.0           2019.0
1   Refrigerador   800.0     90.0       150.0           2018.0
2     Microondas   120.0     15.0      1000.0           2020.0
3     Aspiradora   150.0      NaN       600.0           2017.0
4          Horno   350.0     40.0      2000.0           2016.0
5      Tostadora    30.0      2.0       800.0              NaN
6      Licuadora    60.0      3.0         NaN           2021.0
7       Cafetera    70.0      2.0       900.0           2018.0
8        Plancha    40.0      NaN      1200.0           2020.0
9     Ventilador    55.0      4.0        50.0           2015.0
10     Extractor   120.0      7.0         NaN           2017.0
11      Lavadora   450.0     70.0       500.0           2019.0
12  Refrigerador     NaN     90.0       150.0           2018.0
13    Microondas   120.0     15.0      1000.0           2020.0
14      Hervidor    25.0      1.0      1500.0          

In [31]:
df_electro.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 31 entries, 0 to 30
Data columns (total 5 columns):
 #   Column           Non-Null Count  Dtype  
---  ------           --------------  -----  
 0   Nombre           31 non-null     object 
 1   Precio           30 non-null     float64
 2   Peso_kg          27 non-null     float64
 3   Potencia_W       28 non-null     float64
 4   Año_Fabricación  29 non-null     float64
dtypes: float64(4), object(1)
memory usage: 1.3+ KB


In [34]:
# que valores estan duplicados? con subset
duplicados = df_electro[df_electro.duplicated(subset=['Nombre', 'Precio','Peso_kg', 'Potencia_W', 'Año_Fabricación'])]
print(duplicados.sort_values(by=['Nombre']))

        Nombre  Precio  Peso_kg  Potencia_W  Año_Fabricación
28    Cafetera    70.0      2.0       900.0           2018.0
27    Freidora    90.0      6.0      1800.0           2017.0
25    Hervidor    25.0      1.0      1500.0           2019.0
11    Lavadora   450.0     70.0       500.0           2019.0
30   Licuadora    60.0      3.0      1200.0           2021.0
13  Microondas   120.0     15.0      1000.0           2020.0
29  Microondas   120.0     15.0      1000.0           2020.0
23  Ventilador    55.0      4.0        50.0           2015.0


In [36]:

df_electro.drop_duplicates(inplace=True)

In [37]:
#Muestra todas las filas que tienen al menos un campo en nulo
df_nulos = df_electro[df_electro.isnull().any(axis=1)]
print(df_nulos)


          Nombre  Precio  Peso_kg  Potencia_W  Año_Fabricación
3     Aspiradora   150.0      NaN       600.0           2017.0
5      Tostadora    30.0      2.0       800.0              NaN
6      Licuadora    60.0      3.0         NaN           2021.0
8        Plancha    40.0      NaN      1200.0           2020.0
10     Extractor   120.0      7.0         NaN           2017.0
12  Refrigerador     NaN     90.0       150.0           2018.0
15      Secadora   400.0     65.0         NaN           2018.0
18         Horno   350.0      NaN      2000.0           2016.0
21      Cafetera    70.0      NaN       900.0           2018.0
22       Plancha    40.0      3.0      1200.0              NaN


In [38]:
#nulos inicial
print("\nNulos antes de eliminar:")
print(df_electro.isnull().sum())

df_electro.dropna(inplace=True)

print("\nNulos despues de eliminar:")
print(df_electro.isnull().sum())


Nulos antes de eliminar:
Nombre             0
Precio             1
Peso_kg            4
Potencia_W         3
Año_Fabricación    2
dtype: int64

Nulos despues de eliminar:
Nombre             0
Precio             0
Peso_kg            0
Potencia_W         0
Año_Fabricación    0
dtype: int64


In [39]:
#Obtén un resumen con estadísticas básicas de los datos numéricos, para entender rangos, promedios y detectar posibles valores extraños.
df_electro.describe()


Unnamed: 0,Precio,Peso_kg,Potencia_W,Año_Fabricación
count,13.0,13.0,13.0,13.0
mean,209.230769,23.846154,1069.230769,2018.0
std,228.827138,31.360395,832.300642,1.632993
min,25.0,1.0,50.0,2015.0
25%,60.0,3.0,500.0,2017.0
50%,120.0,6.0,900.0,2018.0
75%,350.0,40.0,1500.0,2019.0
max,800.0,90.0,3000.0,2021.0


In [40]:
print(df_electro.dtypes)

Nombre              object
Precio             float64
Peso_kg            float64
Potencia_W         float64
Año_Fabricación    float64
dtype: object


In [41]:
print (df_electro)

          Nombre  Precio  Peso_kg  Potencia_W  Año_Fabricación
0       Lavadora   450.0     70.0       500.0           2019.0
1   Refrigerador   800.0     90.0       150.0           2018.0
2     Microondas   120.0     15.0      1000.0           2020.0
4          Horno   350.0     40.0      2000.0           2016.0
7       Cafetera    70.0      2.0       900.0           2018.0
9     Ventilador    55.0      4.0        50.0           2015.0
14      Hervidor    25.0      1.0      1500.0           2019.0
16      Freidora    90.0      6.0      1800.0           2017.0
17    Aspiradora   150.0      5.0       600.0           2017.0
19     Tostadora    30.0      2.0       800.0           2019.0
20     Licuadora    60.0      3.0      1200.0           2021.0
24     Extractor   120.0      7.0       400.0           2017.0
26      Secadora   400.0     65.0      3000.0           2018.0
