# Semana 5: Manipulación de datos

## 🐼 Pandas

Pandas (Python Data Analysis Library) es una de las librerías de Python más populares en ciencia de datos. Proporciona estructuras de datos de alto nivel y funciones que están diseñadas para que el trabajo con datos estructurados o tabulares sea rápido y fácil. En particular, Pandas proporciona funcionalidades que facilitan la indexación, segmentación, el uso de agregaciones y mucho más. Dado que la manipulación y limpieza de datos son habilidades importantes en la ciencia de datos, esta será una herramienta imprescindible (https://pandas.pydata.org/docs/index.html#).

In [1]:
# Llamar la libreria de pandas
import pandas as pd

## 📊 DataFrames en Pandas
Un DataFrame es una estructura de datos bidimensional con etiquetas en filas y columnas.

In [2]:
# Construir un DataFrame a partir de un diccionario

#Declarando el diccionario de nombre "data"
data = {
    "Pais": ["Suiza", "Australia", "Canada"],
    "Capital": ["Berna", "Canberra", "Ottawa"],
    "Pob": [8.6, 25.7, 38]
}

indices = ["A", "B","C"]

#Creando el DataFrame, al que estoy nombrando como "tabla"
tabla = pd.DataFrame(data = data, index= indices)
tabla

Unnamed: 0,Pais,Capital,Pob
A,Suiza,Berna,8.6
B,Australia,Canberra,25.7
C,Canada,Ottawa,38.0


|               | Tipo en Python | Tipo en Pandas |
| :---------------- | :------: | ----: |
| String        |   `str`   | ```object``` |
| Número enteros        |   `int`   | ```int64``` |
| Número flotantes        |   `float`   | ```float64``` |
| Booleanos        |   `bool`   | ```bool``` |

In [3]:
print(tabla.dtypes)

Pais        object
Capital     object
Pob        float64
dtype: object


Podemos leer y escribir datos en distintos formatos.

```python
tabla.to_csv('datos_guardados.csv', index=False)
```


##  📦 Importación y uso de paquetes
Para trabajar con archivos, Pandas ofrece funciones como `read_csv()` y `read_excel()`.


In [4]:
df = pd.read_csv('Ejemplos/Tabla_1_ejemplo.csv')

df

Unnamed: 0,ID,Producto,Precio,Cantidad
0,789,Laptop,800,10
1,175,Teléfono,500,25
2,965,Tablet,300,15
3,215,Monitor,200,20
4,369,Teclado,50,50


In [5]:
df2 = pd.read_excel('Ejemplos/Tabla_2_ejemplo.xlsx')

df2

Unnamed: 0,CATEGORÍA,FECHA,IMPORTE
0,Ocio,2024-01-07 00:00:00,"$2.300,00"
1,Supermercado,2024-02-07 00:00:00,"$147.670,00"
2,Ocio,2024-02-07 00:00:00,"$59.183,00"
3,Supermercado,2024-03-07 00:00:00,"$15.000,00"
4,Ocio,2024-06-07 00:00:00,"$20.000,00"
5,Ocio,2024-10-07 00:00:00,"$3.500,00"
6,Ocio,2024-11-07 00:00:00,"$3.450,00"
7,Ocio,2024-12-07 00:00:00,"$31.558,00"
8,Ocio,2024-12-07 00:00:00,"$11.300,00"
9,Gastos_Fijos,13/07/24,"$7.095,00"


## 🔍 Indexación de un DataFrame
Podemos acceder a los datos usando `loc[]` y `iloc[]`.


In [6]:
print(df.loc[0, 'Producto'])  # Acceder por etiqueta
print(df.iloc[1, 2])  # Acceder por índice

Laptop
500


In [7]:
print(df['Producto'])

0      Laptop
1    Teléfono
2      Tablet
3     Monitor
4     Teclado
Name: Producto, dtype: object


In [8]:
print(df['Producto'][2])

Tablet


## 🔢 Contar y sumar datos

In [9]:
print(df['Precio'].sum())  # Suma total de los precios
print(df['Precio'].mean())  # Promedio de precios

1850
370.0


### 💻📖 Pongamos a prueba nuestro conocimiento

Para que todo no se quedé con solo teoria, tratemos de resolver tres ejercicio para practicar (usaremos este link: https://www.online-python.com/)

1. Crea un DataFrame con los datos de cinco empleados: nombre, edad, salario y departamento.
3. Calcula la media de los salarios y cuenta cuántos empleados hay en cada departamento.

## 📈 Lectura y visualización de datos


In [18]:
#Mirar el encabezado de las tablas
import pandas as pd      
data = pd.read_csv("https://media.geeksforgeeks.org/wp-content/uploads/nba.csv")
data

Unnamed: 0,Name,Team,Number,Position,Age,Height,Weight,College,Salary
0,Avery Bradley,Boston Celtics,0.0,PG,25.0,6-2,180.0,Texas,7730337.0
1,Jae Crowder,Boston Celtics,99.0,SF,25.0,6-6,235.0,Marquette,6796117.0
2,John Holland,Boston Celtics,30.0,SG,27.0,6-5,205.0,Boston University,
3,R.J. Hunter,Boston Celtics,28.0,SG,22.0,6-5,185.0,Georgia State,1148640.0
4,Jonas Jerebko,Boston Celtics,8.0,PF,29.0,6-10,231.0,,5000000.0
...,...,...,...,...,...,...,...,...,...
453,Shelvin Mack,Utah Jazz,8.0,PG,26.0,6-3,203.0,Butler,2433333.0
454,Raul Neto,Utah Jazz,25.0,PG,24.0,6-1,179.0,,900000.0
455,Tibor Pleiss,Utah Jazz,21.0,C,26.0,7-3,256.0,,2900000.0
456,Jeff Withey,Utah Jazz,24.0,C,26.0,7-0,231.0,Kansas,947276.0


In [19]:
data.head()

Unnamed: 0,Name,Team,Number,Position,Age,Height,Weight,College,Salary
0,Avery Bradley,Boston Celtics,0.0,PG,25.0,6-2,180.0,Texas,7730337.0
1,Jae Crowder,Boston Celtics,99.0,SF,25.0,6-6,235.0,Marquette,6796117.0
2,John Holland,Boston Celtics,30.0,SG,27.0,6-5,205.0,Boston University,
3,R.J. Hunter,Boston Celtics,28.0,SG,22.0,6-5,185.0,Georgia State,1148640.0
4,Jonas Jerebko,Boston Celtics,8.0,PF,29.0,6-10,231.0,,5000000.0


In [21]:
#puedo obtener una lista de las columnas de un DataFrame
lista_columnas = data.columns.tolist()
print(lista_columnas)

['Name', 'Team', 'Number', 'Position', 'Age', 'Height', 'Weight', 'College', 'Salary']


In [27]:
#número de indices (o filas) que tiene el DataFrame (También funciona para indices tipo object)
indices = data.index
print(indices)

RangeIndex(start=0, stop=458, step=1)


### 🧮 información estadistica y reorganizando los DataFrames

In [10]:
import numpy as np

data = {'Producto':['Carne','Lacteos', 'Verduras', 'Ropa'], 'Inventario':[4589, 854,np.nan,456], 'Ventas':[np.nan,698,214,np.nan]}
indices = ["Viaje_empresa_1","Viaje_empresa_2","Viaje_empresa_3","Viaje_empresa_4"]

tabla = pd.DataFrame(data = data, index = indices)
tabla

Unnamed: 0,Producto,Inventario,Ventas
Viaje_empresa_1,Carne,4589.0,
Viaje_empresa_2,Lacteos,854.0,698.0
Viaje_empresa_3,Verduras,,214.0
Viaje_empresa_4,Ropa,456.0,


In [57]:
print(tabla['Ventas'].sum())

912.0


In [58]:
tabla.stack()

Viaje_empresa_1  Producto         Carne
                 Inventario      4589.0
Viaje_empresa_2  Producto       Lacteos
                 Inventario       854.0
                 Ventas           698.0
Viaje_empresa_3  Producto      Verduras
                 Ventas           214.0
Viaje_empresa_4  Producto          Ropa
                 Inventario       456.0
dtype: object

In [59]:
print(tabla.info())  # Información general del DataFrame

<class 'pandas.core.frame.DataFrame'>
Index: 4 entries, Viaje_empresa_1 to Viaje_empresa_4
Data columns (total 3 columns):
 #   Column      Non-Null Count  Dtype  
---  ------      --------------  -----  
 0   Producto    4 non-null      object 
 1   Inventario  3 non-null      float64
 2   Ventas      2 non-null      float64
dtypes: float64(2), object(1)
memory usage: 300.0+ bytes
None


In [60]:
print(tabla.describe())  # Estadísticas descriptivas

        Inventario      Ventas
count     3.000000    2.000000
mean   1966.333333  456.000000
std    2279.997003  342.239682
min     456.000000  214.000000
25%     655.000000  335.000000
50%     854.000000  456.000000
75%    2721.500000  577.000000
max    4589.000000  698.000000


### 🛠 Solucionar Problemas con Archivos
A veces, los datos en archivos pueden contener problemas como valores faltantes o formatos incorrectos.

In [61]:
#df = pd.read_csv('archivo.csv', na_values=['?', 'NaN', ''])
tabla.fillna(0, inplace=True)  # Reemplaza valores faltantes con 0

In [62]:
tabla

Unnamed: 0,Producto,Inventario,Ventas
Viaje_empresa_1,Carne,4589.0,0.0
Viaje_empresa_2,Lacteos,854.0,698.0
Viaje_empresa_3,Verduras,0.0,214.0
Viaje_empresa_4,Ropa,456.0,0.0


In [49]:
print(tabla.info())  # Información general del DataFrame

<class 'pandas.core.frame.DataFrame'>
Index: 4 entries, Viaje_empresa_1 to Viaje_empresa_4
Data columns (total 3 columns):
 #   Column      Non-Null Count  Dtype  
---  ------      --------------  -----  
 0   Producto    4 non-null      object 
 1   Inventario  4 non-null      float64
 2   Ventas      4 non-null      float64
dtypes: float64(2), object(1)
memory usage: 128.0+ bytes
None


In [50]:
print(tabla.describe())  # Estadísticas descriptivas

       Inventario    Ventas
count     4.00000    4.0000
mean   1474.75000  228.0000
std    2105.28088  329.1727
min       0.00000    0.0000
25%     342.00000    0.0000
50%     655.00000  107.0000
75%    1787.75000  335.0000
max    4589.00000  698.0000


In [69]:
tabla.iloc[0, 2] = 587

In [70]:
tabla

Unnamed: 0,Producto,Inventario,Ventas
Viaje_empresa_1,Carne,4589.0,587.0
Viaje_empresa_2,Lacteos,854.0,698.0
Viaje_empresa_3,Verduras,0.0,214.0
Viaje_empresa_4,Ropa,456.0,0.0


### 💻📖 Pongamos a prueba nuestro conocimiento

Para que todo no se quedé con solo teoria, tratemos de resolver este ejercicio para practicar (usaremos este link: https://www.online-python.com/)

1. Usando tus conocimientos de DataFrames con pandas, crea un DataFrame de la siguiente lista:
```python
users = [
    ['32415', ' mike_reed ', 32.0,  'SPORT', 894],
    ['31980', 'kate morgan', 24.0, 'CLOTHES', 390],
    ['32156', ' john doe ', 37.0, 'ELECTRONICS', 99],
    ['32761', 'SAMANTHA SMITH', 29.0, 'CLOTHES',  85],
    ['32984', 'David White', 41.0, 'SPORT', 243],
    ['33001', 'emily brown', 26.0, 'BEAUTY', 79],
    ['33767', ' Maria Garcia', 33.0, 'CLOTHES', 63],
    ['33912', 'JOSE MARTINEZ', 22.0, 'SPORT',  109],
    ['34009', 'lisa wilson ', 35.0, 'HOME',   329],
    ['34278', 'James Lee', 28.0, 'BEAUTY',  579]
]
```
En donde las columnas deben tener los siguientes nombres: `user_id`, `user_name`, `user_age`, `fav_categories`, `total_spendings`

2. Guardar el DataFrame en un CSV y cargar el CSV para verficar que funciona

3. Luego de crear el DataFrame necesito que:
   - Eliminar todos los espacios iniciales y finales de los nombres, así como cualquier guion bajo.
   - Convertir todas las edades en números enteros.
   - Me digas cual es la edad promedio del DataFrame
   - Quien tiene el Gasto máximo del `total_spendings` y en que `fav_cateories` pertenece
   - ¿cual es el `fav_categories` con la mayor suma de gastos?