<a href="https://colab.research.google.com/github/RodrigoGuedesDP/Programacion_101/blob/main/01_Introduccion_a_Python/07_manipulacion_de_datos_con_pandas.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

<img src="https://www.ctic.uni.edu.pe/wp-content/uploads/2022/04/588px-x-348px-web-1.png" alt="HTML5 Icon" width="900" height="350" >


# **Manipulación de Datos con Pandas**


**Objetivo**

El objetivo de este laboratorio es capacitar al estudiante con las herramientas y técnicas esenciales para la manipulación de datos utilizando la biblioteca Pandas. Al final del laboratorio, el estudiante será capaz de realizar operaciones básicas y avanzadas en conjuntos de datos, combinarlos, agruparlos y extraer información útil para el análisis.

**Contenido**

1. <a href="#item31">Introducción a Pandas</a>
2. <a href="#item31">Operaciones Básicas con DataFrames</a>
3. <a href="#item31">Combinación de Datasets</a>
4. <a href="#item31">Agregación y Agrupamiento</a>

</font>
</div>


---

# 1. Introducción a Pandas



## 1.1. ¿Qué es Pandas?

Pandas es una biblioteca de código abierto para el lenguaje de programación Python, que proporciona estructuras de datos y herramientas de análisis de datos de alto rendimiento y fáciles de usar. Es fundamental en el campo de la ciencia de datos y el análisis de datos.

**Características clave de Pandas:**

- Estructuras de datos flexibles: Series y DataFrames para datos unidimensionales y bidimensionales.
- Indexación potente: Permite acceso y manipulación eficientes de datos.
- Herramientas de limpieza y preparación de datos: Funciones para manejar datos faltantes, duplicados, y más.
- Integración con otras bibliotecas: Se complementa bien con NumPy, Matplotlib, y otras.



## 1.2. Estructuras de datos en Pandas

**Series:** Estructura unidimensional similar a una columna en una tabla.

In [2]:
import pandas as pd

# Crear una Serie
s = pd.Series([1, 3, 5, 7, 9])
print(s)


0    1
1    3
2    5
3    7
4    9
dtype: int64


**DataFrame:** Estructura bidimensional, similar a una hoja de cálculo con filas y columnas.


In [3]:
# Crear un DataFrame
data = {
    'Nombre': ['Ana', 'Luis', 'Carlos'],
    'Edad': [23, 45, 34],
    'Ciudad': ['Madrid', 'Barcelona', 'Valencia']
}

df = pd.DataFrame(data)
print(df)


   Nombre  Edad     Ciudad
0     Ana    23     Madrid
1    Luis    45  Barcelona
2  Carlos    34   Valencia


## 1.3. Importación y exploración inicial de datos

Importar datos desde un archivo CSV:


In [16]:
# archivo 'datos.csv'
df = pd.read_csv('titanic.csv')


**Exploración inicial:**

Ver las primeras filas:

In [17]:
print(df.head())  # Muestra las primeras 5 filas

   PassengerId  Survived  Pclass  \
0            1         0       3   
1            2         1       1   
2            3         1       3   
3            4         1       1   
4            5         0       3   

                                                Name     Sex   Age  SibSp  \
0                            Braund, Mr. Owen Harris    male  22.0      1   
1  Cumings, Mrs. John Bradley (Florence Briggs Th...  female  38.0      1   
2                             Heikkinen, Miss. Laina  female  26.0      0   
3       Futrelle, Mrs. Jacques Heath (Lily May Peel)  female  35.0      1   
4                           Allen, Mr. William Henry    male  35.0      0   

   Parch            Ticket     Fare Cabin Embarked  
0      0         A/5 21171   7.2500   NaN        S  
1      0          PC 17599  71.2833   C85        C  
2      0  STON/O2. 3101282   7.9250   NaN        S  
3      0            113803  53.1000  C123        S  
4      0            373450   8.0500   NaN        S  


In [None]:
df.head(4)

Unnamed: 0,Nombre,Edad,Ciudad
0,Ana,23,Madrid
1,Luis,45,Barcelona
2,Carlos,34,Valencia


Resumen de información:

In [None]:
df.tail()

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
886,887,0,2,"Montvila, Rev. Juozas",male,27.0,0,0,211536,13.0,,S
887,888,1,1,"Graham, Miss. Margaret Edith",female,19.0,0,0,112053,30.0,B42,S
888,889,0,3,"Johnston, Miss. Catherine Helen ""Carrie""",female,,1,2,W./C. 6607,23.45,,S
889,890,1,1,"Behr, Mr. Karl Howell",male,26.0,0,0,111369,30.0,C148,C
890,891,0,3,"Dooley, Mr. Patrick",male,32.0,0,0,370376,7.75,,Q


In [18]:
print(df.info())  # Información sobre tipos de datos y valores nulos

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 891 entries, 0 to 890
Data columns (total 12 columns):
 #   Column       Non-Null Count  Dtype  
---  ------       --------------  -----  
 0   PassengerId  891 non-null    int64  
 1   Survived     891 non-null    int64  
 2   Pclass       891 non-null    int64  
 3   Name         891 non-null    object 
 4   Sex          891 non-null    object 
 5   Age          714 non-null    float64
 6   SibSp        891 non-null    int64  
 7   Parch        891 non-null    int64  
 8   Ticket       891 non-null    object 
 9   Fare         891 non-null    float64
 10  Cabin        204 non-null    object 
 11  Embarked     889 non-null    object 
dtypes: float64(2), int64(5), object(5)
memory usage: 83.7+ KB
None


Estadísticas descriptivas:

In [19]:
print(df.describe())  # Estadísticas básicas de las columnas numéricas

       PassengerId    Survived      Pclass         Age       SibSp  \
count   891.000000  891.000000  891.000000  714.000000  891.000000   
mean    446.000000    0.383838    2.308642   29.699118    0.523008   
std     257.353842    0.486592    0.836071   14.526497    1.102743   
min       1.000000    0.000000    1.000000    0.420000    0.000000   
25%     223.500000    0.000000    2.000000   20.125000    0.000000   
50%     446.000000    0.000000    3.000000   28.000000    0.000000   
75%     668.500000    1.000000    3.000000   38.000000    1.000000   
max     891.000000    1.000000    3.000000   80.000000    8.000000   

            Parch        Fare  
count  891.000000  891.000000  
mean     0.381594   32.204208  
std      0.806057   49.693429  
min      0.000000    0.000000  
25%      0.000000    7.910400  
50%      0.000000   14.454200  
75%      0.000000   31.000000  
max      6.000000  512.329200  


In [20]:
# para quedarse con las listas
df.columns.tolist()

['PassengerId',
 'Survived',
 'Pclass',
 'Name',
 'Sex',
 'Age',
 'SibSp',
 'Parch',
 'Ticket',
 'Fare',
 'Cabin',
 'Embarked']

In [None]:
# Filtros
df_female = df.loc[df.Sex == 'female']
df_female.describe()

Unnamed: 0,PassengerId,Survived,Pclass,Age,SibSp,Parch,Fare
count,314.0,314.0,314.0,261.0,314.0,314.0,314.0
mean,431.028662,0.742038,2.159236,27.915709,0.694268,0.649682,44.479818
std,256.846324,0.438211,0.85729,14.110146,1.15652,1.022846,57.997698
min,2.0,0.0,1.0,0.75,0.0,0.0,6.75
25%,231.75,0.0,1.0,18.0,0.0,0.0,12.071875
50%,414.5,1.0,2.0,27.0,0.0,0.0,23.0
75%,641.25,1.0,3.0,37.0,1.0,1.0,55.0
max,889.0,1.0,3.0,63.0,8.0,6.0,512.3292


In [None]:
# mas filtros
df_male = df.loc[(df.Sex == 'male') & (df.Age < 16)]
df_male.describe()

Unnamed: 0,PassengerId,Survived,Pclass,Age,SibSp,Parch,Fare
count,40.0,40.0,40.0,40.0,40.0,40.0,40.0
mean,448.55,0.525,2.625,5.46675,2.225,1.35,34.380522
std,296.365328,0.505736,0.627878,4.398238,1.775727,0.579567,27.647
min,8.0,0.0,1.0,0.42,0.0,0.0,7.2292
25%,180.25,0.0,2.0,1.75,1.0,1.0,18.778125
50%,397.5,1.0,3.0,4.0,1.0,1.0,29.125
75%,764.0,1.0,3.0,9.0,4.0,2.0,39.6875
max,870.0,1.0,3.0,15.0,5.0,2.0,151.55


##2. Operaciones Básicas con DataFrames



###2.1. Acceso a datos

**Conceptos clave:**

- Acceso a columnas y filas.
- Uso de loc (basado en etiquetas) y iloc (basado en posiciones).


**Ejemplo:**

In [7]:
import pandas as pd

# Crear un DataFrame de ejemplo
data = {
    'Nombre': ['Ana', 'Luis', 'Carlos', 'María'],
    'Edad': [23, 45, 34, 29],
    'Ciudad': ['Madrid', 'Barcelona', 'Valencia', 'Sevilla']
}

df = pd.DataFrame(data)

In [None]:
#Guardar como csv
pd.


In [6]:
# Acceder a una columna
edades = df['Edad']
print("Edades:")
print(edades)

Edades:
0    23
1    45
2    34
3    29
Name: Edad, dtype: int64


In [None]:

# Acceder a múltiples columnas
nombre_ciudad = df[['Nombre', 'Ciudad']]
print("\nNombre y Ciudad:")
print(nombre_ciudad)

In [None]:
# Acceder a una fila por etiqueta
fila_ana = df.loc[0]
print("\nFila de Ana:")
print(fila_ana)

In [None]:
# Acceder a una fila por posición
fila_primera = df.iloc[0]
print("\nPrimera fila:")
print(fila_primera)


### 2.2. Selección y filtrado

Conceptos clave:

- Filtrado condicional.
- Uso de operadores lógicos (&, |, ~).

**Ejemplo:**

In [8]:
# Filtrar por condición
mayores_30 = df[df['Edad'] > 30]
print("\nPersonas mayores de 30 años:")
print(mayores_30)


Personas mayores de 30 años:
   Nombre  Edad     Ciudad
1    Luis    45  Barcelona
2  Carlos    34   Valencia


In [None]:
# Filtrar por múltiples condiciones
madrid_mayor_25 = df[(df['Ciudad'] == 'Madrid') & (df['Edad'] > 25)]
print("\nPersonas de Madrid mayores de 25 años:")
print(madrid_mayor_25)

In [None]:
# Uso de isin para múltiples valores
ciudades = df[df['Ciudad'].isin(['Madrid', 'Valencia'])]
print("\nPersonas de Madrid o Valencia:")
print(ciudades)

In [21]:
#Filtremos el dataframe de titanic en mujeres de primera clase menores de 20 anios
mujeres_primera_clase = df[(df['Pclass'] == '1') & (df['Age'] < 20) & (df['Sex'] < 'female')]
print("\nMujeres de primera clase menores de 2o años:")
mujeres_primera_clase.head()



Mujeres de primera clase menores de 2o años:


Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked


### 2.3. Ordenamiento de datos

**Conceptos clave:**

- Ordenar por una o varias columnas.
- Orden ascendente (ascending=True) y descendente (ascending=False).

**Ejemplo:**

In [None]:
# Ordenar por edad ascendente
df_ordenado_edad = df.sort_values(by='Edad')
print("\nDataFrame ordenado por edad (ascendente):")
print(df_ordenado_edad)


In [None]:

# Ordenar por edad descendente
df_ordenado_edad_desc = df.sort_values(by='Edad', ascending=False)
print("\nDataFrame ordenado por edad (descendente):")
print(df_ordenado_edad_desc)


In [None]:

# Ordenar por ciudad y luego por edad
df_ordenado_ciudad_edad = df.sort_values(by=['Ciudad', 'Edad'])
print("\nDataFrame ordenado por ciudad y edad:")
print(df_ordenado_ciudad_edad)


### 2.4. Modificación y eliminación de datos

**Conceptos clave:**

- Añadir y modificar columnas.
- Eliminar filas y columnas.

**Ejemplo:**

In [None]:
# Añadir una nueva columna
df['Puntaje'] = [88, 92, 79, 85]
print("\nDataFrame con nueva columna 'Puntaje':")
print(df)


In [None]:
# Modificar valores
df.loc[df['Nombre'] == 'Ana', 'Edad'] = 24
print("\nDataFrame después de modificar la edad de Ana:")
print(df)


In [None]:
# Eliminar una columna
df_sin_puntaje = df.drop('Puntaje', axis=1)
print("\nDataFrame sin la columna 'Puntaje':")
print(df_sin_puntaje)


In [None]:
# Eliminar una fila
df_sin_fila = df.drop(2)  # Eliminar la fila con índice 2
print("\nDataFrame sin la fila de Carlos:")
print(df_sin_fila)

### 2.5. Manejo de datos faltantes

**Conceptos clave:**

- Identificar y tratar valores nulos (NaN).
- Métodos para eliminar o imputar datos faltantes.

**Ejemplo:**

In [None]:
# Introducir valores faltantes
df_con_nan = df.copy()
df_con_nan.loc[1, 'Edad'] = None
print("\nDataFrame con valor faltante:")
print(df_con_nan)


In [None]:
# Identificar valores faltantes
print("\nValores faltantes en 'Edad':")
print(df_con_nan['Edad'].isnull())

In [None]:

# Eliminar filas con valores faltantes
df_sin_nan = df_con_nan.dropna()
print("\nDataFrame sin filas con valores faltantes:")
print(df_sin_nan)

In [None]:
# Imputar valores faltantes
df_imputado = df_con_nan.fillna({'Edad': df_con_nan['Edad'].mean()})
print("\nDataFrame con valores faltantes imputados:")
print(df_imputado)


###2.6. Tamaño y resumen de datos

**Conceptos clave:**

- Obtener el número de filas y columnas.
- Resumen estadístico de los datos.

**Ejemplo:**

In [None]:
# Obtener el número de filas y columnas
filas, columnas = df.shape
print(f"\nEl DataFrame tiene {filas} filas y {columnas} columnas.")


In [None]:

# Listar las columnas
print("\nColumnas del DataFrame:")
print(df.columns)

In [None]:
# Resumen estadístico
print("\nResumen estadístico:")
print(df.describe())

### 2.7. Ejercicios



**Ejercicio 1**

Crea un DataFrame con la siguiente información:

- Nombre: 'Juan', 'Laura', 'Pedro', 'Carmen', 'Luis'
- Departamento: 'Ventas', 'Marketing', 'Ventas', 'Finanzas', 'Marketing'
- Salario: 50000, 60000, 55000, 65000, 62000

Tareas:

- Accede a la columna de salarios.
- Filtra los empleados del departamento de 'Marketing'.
- Ordena el DataFrame por salario de manera descendente.
- Añade una nueva columna 'Bono' que sea el 10% del salario.
- Calcula el salario total (salario + bono) y añade una columna 'SalarioTotal'.


**Ejercicio 2**

Utilizando el DataFrame del ejercicio anterior:

- Modifica el salario de 'Juan' a 52000.
- Elimina el empleado 'Pedro' del DataFrame.
- Identifica si hay datos faltantes en el DataFrame.
- Si hay datos faltantes, imputa con el valor promedio de la columna correspondiente.




**Ejercicio 3**

Crea un DataFrame con datos de ventas:

- Producto: 'Producto A', 'Producto B', 'Producto C', 'Producto D'
- Ventas Enero: 150, 200, 140, 170
- Ventas Febrero: 180, None, 160, 190

Tareas:

- Calcula el total de ventas por producto sumando 'Ventas Enero' y 'Ventas Febrero'.
- Identifica los productos con datos faltantes en 'Ventas Febrero'.
- Imputa los valores faltantes con el promedio de 'Ventas Febrero'.
- Ordena el DataFrame por total de ventas de manera ascendente.

---

# Gracias por completar este laboratorio!

---