# Actividad 1


## Eliminación de Duplicados y Tratamiento de Datos Faltantes
Contamos con un conjunto de datos ficticio de una tienda en línea que contiene información sobre clientes, incluyendo nombre, edad y correo electrónico. Realizar las siguientes tareas:
* Cargar el conjunto de datos.
* Identificar y eliminar las filas duplicadas.
* Manejar los datos faltantes en la columna de edad, evaluando cuál es la mejor decisión, considerando que vamos a realizar un análisis enfocado en grupos etarios de los clientes. Evaluar el impacto sobre el análisis si:
  * Se eliminan las filas que no contienen la edad.
  * Se completa el dato con la media de la columna.

In [1]:
# Importamos librerias
import pandas as pd

In [3]:
# Importamos datos de Google Sheets
ID_planilla = '13ufG0CQqpozGhJfh8t3T-01p4lcPPZa26TrrWhQux3c'
URL = f'https://docs.google.com/spreadsheets/d/{ID_planilla}/gviz/tq?tqx=out:csv&sheet='
df = pd.read_csv(URL)
df.head()

Unnamed: 0,Nombre,Edad,Email
0,Elonore Over,40.0,eoverh6@ocn.ne.jp
1,Jacquette Gillbe,49.0,jgillbeb8@diigo.com
2,Sheelah Olechnowicz,61.0,solechnowiczch@mlb.com
3,Morris Bilovus,32.0,mbilovus3q@artisteer.com
4,Erda Geipel,60.0,egeipelj5@jalbum.net


In [4]:
# Veamos la estructura del dataframe
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1032 entries, 0 to 1031
Data columns (total 3 columns):
 #   Column  Non-Null Count  Dtype  
---  ------  --------------  -----  
 0   Nombre  1032 non-null   object 
 1   Edad    973 non-null    float64
 2   Email   1032 non-null   object 
dtypes: float64(1), object(2)
memory usage: 24.3+ KB


### Eploracion y tratamiento de duplicados

In [5]:
# Cuantificamos los registros duplicados
df.duplicated().sum()

np.int64(32)

In [6]:
# Visualizar los registros duplicados
df[df.duplicated(keep=False)].sort_values(by="Nombre")

Unnamed: 0,Nombre,Edad,Email
577,Arnoldo Britney,52.0,abritney8f@arstechnica.com
838,Arnoldo Britney,52.0,abritney8f@arstechnica.com
535,Berny Rawlin,49.0,brawlin94@time.com
402,Berny Rawlin,49.0,brawlin94@time.com
907,Candace Ruperti,,cruperti8t@furl.net
...,...,...,...
828,Veda Sherman,33.0,vsherman8y@mac.com
839,Vina Mein,64.0,vmein8o@sina.com.cn
1022,Vina Mein,64.0,vmein8o@sina.com.cn
607,Welch Addionizio,57.0,waddionizio91@unc.edu


In [7]:
# Usamos drop_duplicates() para eliminar los registros duplicados
df_pp1 = df.drop_duplicates()
df_pp1.duplicated().sum()

np.int64(0)

### Eploracion y tratamiento de nulos

In [8]:
# Ver si hay datos nulos y cuantos
df.isnull().sum()

Unnamed: 0,0
Nombre,0
Edad,59
Email,0


In [None]:
# Mostrar hasta 10 filas en todas las salidas
pd.set_option('display.max_rows', 10)

In [9]:
# Visualizar los nulos
df[df.isnull().any(axis=1)][["Nombre", "Edad"]]

Unnamed: 0,Nombre,Edad
23,Timotheus Meggison,
32,Dominga Dewdney,
44,Peggy Songer,
52,Dewey McCulley,
53,Phil Triggol,
74,Lilyan Dulton,
78,Janina Florence,
88,Del Lente,
110,Wilone Sked,
151,Ronnica Mabey,


In [10]:
# Eliminar los nulos
df_pp2 = df.dropna(ignore_index=False)
df_pp2.isnull().sum()

Unnamed: 0,0
Nombre,0
Edad,0
Email,0


In [11]:
# Visualizamos despues de eliminar
df_pp2[df_pp2.isnull().any(axis=1)]

Unnamed: 0,Nombre,Edad,Email


In [None]:
df_pp2

In [12]:
# Reemplazar nulos por un valor fijo
df_pp3 = df.fillna(0)
df_pp3.isnull().sum()

Unnamed: 0,0
Nombre,0
Edad,0
Email,0


In [19]:
# Reemplazar nulor por la media/mediana
edad_media = df["Edad"].mean()
edad_mediana = df["Edad"].median()
edad_moda = df["Edad"].mode()
print(f"Edad - Media: {edad_media}")
print(f"Edad Mediana: {edad_mediana}")
print(f"\n Edad - Moda: {edad_moda} \n")
df_pp3["Edad"] = df["Edad"].fillna(edad_mediana)
df_pp3.isnull().sum()

Edad - Media: 46.51284686536485
Edad Mediana: 47.0

 Edad - Moda: 0    58.0
Name: Edad, dtype: float64 



Unnamed: 0,0
Nombre,0
Edad,0
Email,0


In [14]:
df_pp3 = df.fillna(df.mean(numeric_only=True))
df_pp3.isnull().sum()

Unnamed: 0,0
Nombre,0
Edad,0
Email,0


In [15]:
df_pp3.sample(20)

Unnamed: 0,Nombre,Edad,Email
612,Con Dufer,64.0,cduferfk@meetup.com
756,Grata Baldacchi,54.0,gbaldacchine@nasa.gov
426,Dewain Kerfoot,40.0,dkerfootb@shop-pro.jp
836,Maxy Voase,53.0,mvoasee0@com.com
573,Lucilia Palke,56.0,lpalke8a@prweb.com
421,Misha MacSkeaghan,47.0,mmacskeaghanb9@discovery.com
243,Lorenza Moizer,31.0,lmoizern0@vkontakte.ru
114,Ulrica Andor,50.0,uandord6@bravesites.com
412,Salem Fley,39.0,sfleyb4@jalbum.net
56,Glynda Wenderoth,59.0,gwenderothm3@bbc.co.uk


In [16]:
df.describe()

Unnamed: 0,Edad
count,973.0
mean,46.512847
std,12.307242
min,25.0
25%,36.0
50%,47.0
75%,57.0
max,67.0


In [None]:
import matplotlib.pyplot as plt
df_pp2["Edad"].hist(bins=8)
plt.title("Histograma de edades")
plt.xlabel("Edad")
plt.ylabel("Frecuencia")
plt.show()

In [None]:
df.boxplot(column="Edad")

In [None]:
import seaborn as sns
sns.boxplot(x=df["Edad"])
sns.pointplot(x=df["Edad"], color="red", join=False, estimator="mean")  # agrega la media
plt.title("Boxplot con media (rojo)")
plt.show()

# Actividad 2

In [None]:
# Importamos datos de Google Sheets
ID_planilla = '170GDFJKpZEaBbA48mII018sW6qBOGz2X4UlV4HNQaWo'
URL = f'https://docs.google.com/spreadsheets/d/{ID_planilla}/gviz/tq?tqx=out:csv&sheet='
df = pd.read_csv(URL)
df.head()

In [None]:
df.info()

In [None]:
#df["Precio"]=pd.to_numeric(df["Precio"], errors="coerce")
#df["Precio"]=df["Precio"].str.replace("$","")
df["Precio"]=df["Precio"].astype(float)



In [None]:
df.head()

In [None]:
# Normalizar
df["Producto"] = (
    df["Producto"]
    .str.lower()                                   # minúsculas
    .str.replace(r"[^a-z0-9\s]", "", regex=True)   # quita caracteres especiales
    .str.strip()
    .str.replace(r"\s+", " ", regex=True)          # espacios normales
)

In [None]:
df["Producto"][0]="Acero Delgado"