
# Data Wrangling y Pandas
---

## Agenda

1. ¿Qué es Data Wrangling?
2. Introducción a Pandas y DataFrames
3. Crear un DataFrame
   - Desde colecciones de Python
   - Desde hojas de cálculo (csv, excel, etc.)
4. Atributos de un DataFrame
5. Examinar un DataFrame
   - Ordenar
   - Slicing y selección por índices
   - Filtrado condicional
6. Procesamiento de los datos
   - Manejo de valores nulos
   - Manejo de datos duplicados
7. Agrupación de datos

---


# ¿Qué es Data Wrangling?

**Data Wrangling** es el proceso de limpiar, transformar y estructurar datos para su análisis. Incluye tareas como manejar valores faltantes, corregir formatos y estandarizar información, mejorando la calidad de los datos.


<img src="https://www.modernanalyst.com/Portals/0/Public%20Uploads/Fin654-data-wrangler.jpg" alt="Descripción" width="300" height="300">

---

- **🔍 DESCUBRIMIENTO:**  
  Familiarizarse con los datos para conceptualizar cómo podrías utilizarlos.

- **📂 ESTRUCTURACIÓN:**  
  Transformar datos en bruto para que sean fácilmente utilizables.

- **🧹 LIMPIEZA:**  
  Eliminar errores inherentes en los datos que podrían distorsionar tu análisis.

- **📊 ENRIQUECIMIENTO:**  
  Determinar si es necesario enriquecer o aumentar tus datos existentes.

- **✅ VERIFICACIÓN:**  
  Confirmar que tus datos sean consistentes y de alta calidad.

- **📤 PUBLICACIÓN:**  
  Hacer que tus datos estén disponibles para el análisis.

---
# Introducción a Pandas y DataFrames

Pandas es una biblioteca de Python para análisis y manipulación de datos. Su estructura principal, el **DataFrame**, permite organizar datos en tablas similares a Excel, facilitando operaciones como filtrado, agregación y limpieza. Es esencial para la ciencia de datos y el análisis estructurado de información.

<img src="https://media.geeksforgeeks.org/wp-content/uploads/finallpandas.png" alt="Descripción" width="300" height="300">





## Crear un *dataframe*

Para comenzar *carguemos pandas en nuestro espacio de trabajo* y creemos un nuevo dataframe

In [None]:
import pandas as pd

### Desde colecciones de python

In [None]:
# Desde listas anidadas
datos =  [
    [5644686960, "email", "c129aa540a", 0],
    [8623045648, "email", "d6d19c571c", 0],
    [5739438900, "email", "19379ee49c", 0],
    [7486955288, "email", "09c27794fa", 0],
    [7298923004, "email", "1fe184ed73", 0],
    [6034222291, "email", "fb58a27f03", 0],
    [5690036640, "email", "a088a48182", 0],
    [9963049355, "email", "9cc43ebd15", 0],
    [7686901492, "email", "539df283fd", 0],
    [7557066181, "email", "4687297254", 0]
]

columnas =["user_id", "source", "email", "purchase"]
df = pd.DataFrame(datos, columns=columnas)


In [None]:
# Desde lista de diccionarios
datos =  [
    {"user_id": 5644686960, "source": "email", "email": "c129aa540a", "purchase": 0},
    {"user_id": 8623045648, "source": "email", "email": "d6d19c571c", "purchase": 0},
    {"user_id": 5739438900, "source": "email", "email": "19379ee49c", "purchase": 0},
    {"user_id": 7486955288, "source": "email", "email": "09c27794fa", "purchase": 0},
    {"user_id": 7298923004, "source": "email", "email": "1fe184ed73", "purchase": 0},
    {"user_id": 6034222291, "source": "email", "email": "fb58a27f03", "purchase": 0},
    {"user_id": 5690036640, "source": "email", "email": "a088a48182", "purchase": 0},
    {"user_id": 9963049355, "source": "email", "email": "9cc43ebd15", "purchase": 0},
    {"user_id": 7686901492, "source": "email", "email": "539df283fd", "purchase": 0},
    {"user_id": 7557066181, "source": "email", "email": "4687297254", "purchase": 0}
]
df = pd.DataFrame(datos)
df

In [None]:
# Diccionario de lista
datos = {
    "user_id": [
        5644686960, 8623045648, 5739438900, 7486955288, 7298923004,
        6034222291, 5690036640, 9963049355, 7686901492, 7557066181
    ],
    "source": [
        "email", "email", "email", "email", "email",
        "email", "email", "email", "email", "email"
    ],
    "email": [
        "c129aa540a", "d6d19c571c", "19379ee49c", "09c27794fa", "1fe184ed73",
        "fb58a27f03", "a088a48182", "9cc43ebd15", "539df283fd", "4687297254"
    ],
    "purchase": [
        0, 0, 0, 0, 0,
        0, 0, 0, 0, 0
    ]
}
df = pd.DataFrame(datos)
df

### Desde hojas de cálculo (csv,excel,etc)

In [None]:
# DATOS DE PRUEBA 'https://docs.google.com/spreadsheets/d/1Xio5D36BUWOYrsT-0t6mBnLvG_DmjS9xPWpXKobI2qI/edit?gid=1712717259#gid=1712717259'

In [None]:
# Si el archivo no está separado por comas puedes usar el parámetro sep
PATH = "/content/tiempos_compras - tiempos_compras_raw.csv"
df=pd.read_csv(PATH, sep=',')
df

In [None]:
# Si tenemos excel podemos usar pd.read_excel()
PATH="/content/tiempos_compras.xlsx"
pd.read_excel(PATH,sheet_name='hoja_vacia')

### Atributos de un dataframe

In [None]:
# Cuántos datos tengo y cómo están organizados (rows,columns)
df.shape

In [None]:
# Qué caracteristicas observo ( nombre de las columna)
df.columns

In [None]:
# Resumen general de mis datos incluyendo cuantos tengo y el tipo de cada dato
df.info()

## Examinar un dataframe

### Ordernar un dataframe

In [None]:
df

In [None]:
df.sort_values('clics',ascending=True)

In [None]:
df

In [None]:
df.sort_values(['Version','id'],ascending=[False,True],inplace=True)
# El parametro inplace permite aplicar los cambios al df en el sitio

In [None]:
df

### Slicing

In [None]:
# Nos muestra una cantidad pequeña de datos iniciales
df.head()


In [None]:
# Nos muestra una cantidad pequeña de datos finales

df.tail()

In [None]:
# Muestra de los datos, random_state congela la muestra
#df.sample(10,random_state=10)
df.sample(5)

In [None]:
df.head()

In [None]:
# Si pongo dentro del corchete rangos (0:5) me devuelve las filas en ese rango
df[20:25]

In [None]:
# Si paso nombre de columna, me devuelva la columna
df['id']

In [None]:
# Si quiero más de una columna paso una lista con sus nombres
df[['Version','id']]

### Seleccion por índices

In [12]:
df.loc[0:8,'clics']


Unnamed: 0,clics
0,7.0
1,6.0
2,7.0
3,7.0
4,4.0
5,5.0
6,7.0
7,2.0
8,6.0


In [13]:
df.loc[[1,4,20],['clics','id']]

Unnamed: 0,clics,id
1,6.0,24.0
4,4.0,6.0
20,9.0,26.0


In [14]:
df.loc[1,'clics']

np.float64(6.0)

### Filtrado condicional

In [None]:
df

#### Usando loc

In [16]:
df_sample=df.sample(5,random_state=13752)
df_sample

Unnamed: 0,Version,tiempo,clics,id
73,1.7,42.626359,10.0,12.0
131,1.7,44.02165,8.0,7.0
160,2.0,39.648429,7.0,25.0
66,1.7,40.413147,4.0,16.0
225,1.7,50.498335,2.0,11.0


In [20]:
df_sample['Version']  == 2.0

Unnamed: 0,Version
73,False
131,False
160,True
66,False
225,False


In [21]:
df_sample[df_sample['Version']  == 2.0]

Unnamed: 0,Version,tiempo,clics,id
160,2.0,39.648429,7.0,25.0


In [22]:
filtro=df_sample['Version'] == 2.0
df_sample.loc[filtro,['Version','id','clics']]

Unnamed: 0,Version,id,clics
160,2.0,25.0,7.0


In [23]:
filtro = df_sample['id'] > 15
df_sample[filtro]


Unnamed: 0,Version,tiempo,clics,id
160,2.0,39.648429,7.0,25.0
66,1.7,40.413147,4.0,16.0


In [24]:
filtro= (df_sample['Version'] == 2.0) | (df_sample['clics'] >50)
df_sample[filtro]

Unnamed: 0,Version,tiempo,clics,id
160,2.0,39.648429,7.0,25.0


#### Usando `query`

In [None]:
df_sample.query('id > 15')

In [None]:
df_sample.query('Version == 1.7')


In [None]:
df_sample.query('Version == 1.7 and clics >5 ')


## Procesamiento de los datos

### Manejo de valores nulos

In [None]:
#df.notnull().sum()
df.info()

In [None]:
df.notnull().sum()

In [None]:
#df.isnull().sum()
df.isna().sum()

In [None]:
df.query('id.isna()')

In [None]:
df_sample

In [None]:
df_sample['id'].fillna(0)

In [None]:
df_sample['id']=df_sample['id'].fillna(0)
df_sample

In [None]:
df_sin_nulos=df.fillna({'id':0,'Version':1.0,'tiempo':0,'clics':0})

In [None]:
df_sin_nulos.info()

### Manejo de datos duplicados

In [None]:
df.duplicated()

In [None]:
df.duplicated(keep=False) # Keep= False marca como duplicado la primera aparición y todas las posteriores

In [None]:
df.loc[df.duplicated(keep=False),:].sort_values(['Version','id'])

In [None]:
df

In [None]:
df.drop_duplicates(inplace=True)

In [None]:
df

### Agrupación de datos

In [None]:
df_sin_nulos['Version'].unique()

In [None]:
df_sin_nulos.groupby('Version')['id'].count()

In [None]:
df_sin_nulos.groupby('Version')['clics'].mean()

In [None]:
df_sin_nulos.groupby('Version')['tiempo'].sum()

---

## Objetivos logrados

1. Aprendiste qué es el data wrangling y por qué es fundamental para preparar datos antes del análisis.
2. Conociste la biblioteca Pandas y cómo crear DataFrames a partir de diferentes fuentes y estructuras de datos.
3. Practicaste la exploración y manipulación de DataFrames, incluyendo ordenamiento, selección y filtrado de información.
4. Aplicaste técnicas para limpiar datos, identificando y gestionando valores nulos y duplicados.
5. Realizaste agrupaciones y cálculos estadísticos para obtener resúmenes útiles de los datos.

---