# Libreria Pandas III - Ejemplos de uso + Ejercicio Práctico

![logo](img/pandas-logo.png)

## 1. CREACIÓN DE UN DATAFRAME

In [23]:
import warnings
warnings.filterwarnings("ignore")

In [None]:
## UTILIZA ESTE DATAFRAME PARA REALIZAR LOS EJERCICIOS, SIGUIENDO LAS MISMAS PAUTAS QUE EN ESTE EJEMPLO
## df = pd.DataFrame(data={"Pais":['Mexico','Argentina','Espana','Colombia'],
##                        "Poblacion":[127212000, 45167000, 47099000, 48922000],
##                        "Capital":['CDMX','Buenos Aires','Madrid','Bogota']})

In [33]:
import pandas as pd

data = {
    'Nombre': ['Ana', 'Luis', 'Juan', 'Marta'],
    'Edad': [28, 34, 29, 42],
    'Ciudad': ['Madrid', 'Barcelona', 'Valencia', 'Sevilla']
}

df = pd.DataFrame(data)
print(df)
print()
print(df.shape)
print()
print(df.dtypes)
print()
print(df.describe()) # Estadísticas descriptivas sobre columnas numéricas

  Nombre  Edad     Ciudad
0    Ana    28     Madrid
1   Luis    34  Barcelona
2   Juan    29   Valencia
3  Marta    42    Sevilla

(4, 3)

Nombre    object
Edad       int64
Ciudad    object
dtype: object

            Edad
count   4.000000
mean   33.250000
std     6.396614
min    28.000000
25%    28.750000
50%    31.500000
75%    36.000000
max    42.000000


## 2. LECTURA FICHERO CSV

In [25]:
df_test = pd.read_csv('datasets/test2.csv')
print(df_test.head())  # Muestra las primeras 5 filas del DataFrame

   col1  col2  col3
0     1     2     3
1     3     4     5
2     5     6     7


## 3. FILTRADO DE DATOS

In [26]:
# Filtrar las filas donde la edad es mayor a 30
filtro = df[df['Edad'] > 30]
print(filtro)

  Nombre  Edad     Ciudad
1   Luis    34  Barcelona
3  Marta    42    Sevilla


In [27]:
# localización de elementos
print(df.loc[1, 'Nombre'])

Luis


In [28]:
# localización de filas(registros)
print(df.loc[0])

Nombre       Ana
Edad          28
Ciudad    Madrid
Name: 0, dtype: object


In [29]:
print(df.iloc[0,:])  # localización por índice

Nombre       Ana
Edad          28
Ciudad    Madrid
Name: 0, dtype: object


## 4. AGRUPACIÓN Y AGREGACIÓN

In [5]:
# Calcular la edad promedio por ciudad
edad_promedio = df.groupby('Ciudad')['Edad'].mean()
print(edad_promedio)

Ciudad
Barcelona    34.0
Madrid       28.0
Sevilla      42.0
Valencia     29.0
Name: Edad, dtype: float64


## 5. GESTIÓN DE DATOS FALTANTES (MISSING VALUES)

In [31]:
# Localización de nulos
print(df.isnull())
print(df.isnull().sum())    # Cantidad de nulos por columna

   Nombre   Edad  Ciudad
0   False  False   False
1   False  False   False
2   False  False   False
3   False  False   False
Nombre    0
Edad      0
Ciudad    0
dtype: int64


In [44]:
import numpy as np
df.loc[1, 'Edad'] = np.nan
df 

Unnamed: 0,Nombre,Edad,Ciudad
0,Ana,28.0,Madrid
1,Luis,,Barcelona
2,Juan,29.0,Valencia
3,Marta,42.0,Sevilla


In [41]:
# Llenar valores faltantes con la media de la columna
df.fillna(df['Edad'].mean(), inplace=False) # inplace = false para no modificar el DataFrame original. Muestra la operación pero no lo hace realmente

Unnamed: 0,Nombre,Edad,Ciudad
0,Ana,28.0,Madrid
1,Luis,33.0,Barcelona
2,Juan,29.0,Valencia
3,Marta,42.0,Sevilla


In [42]:
print(df)

  Nombre  Edad     Ciudad
0    Ana  28.0     Madrid
1   Luis   NaN  Barcelona
2   Juan  29.0   Valencia
3  Marta  42.0    Sevilla


In [43]:

df.fillna(df['Edad'].mean(), inplace=False)
df_new = df.fillna(df['Edad'].mean(), inplace=False) # inplace=False crea una copia del DataFrame original
print(df_new)
print()
df['Edad'].fillna(df['Edad'].mean(), inplace=True)# inplace=True modifica el DataFrame original, en el caso de que sea False, se crea una copia del DataFrame
print(df)

  Nombre  Edad     Ciudad
0    Ana  28.0     Madrid
1   Luis  33.0  Barcelona
2   Juan  29.0   Valencia
3  Marta  42.0    Sevilla

  Nombre  Edad     Ciudad
0    Ana  28.0     Madrid
1   Luis  33.0  Barcelona
2   Juan  29.0   Valencia
3  Marta  42.0    Sevilla


In [45]:
# Eliminar filas con valores nulos
df.dropna(inplace=True) # inplace=True modifica el DataFrame original
print(df) # Se elimina la fila con valores nulos

  Nombre  Edad    Ciudad
0    Ana  28.0    Madrid
2   Juan  29.0  Valencia
3  Marta  42.0   Sevilla


In [52]:
# insertar valor vacío en elemento específico texto
df.loc[0, 'Nombre'] = ''   # Se inserta un valor vacio en la fila 0, columna Nombre
print(df)

  Nombre  Edad    Ciudad
0         28.0    Madrid
2   Juan  29.0  Valencia
3  Marta  42.0   Sevilla


In [53]:
# localización de texto vacío
print(df['Nombre'] == '')   # Muestra True en la fila 0 y False en las demás

0     True
2    False
3    False
Name: Nombre, dtype: bool


In [54]:
# Sustituir texto vacío por un texto específico
df.loc[df['Nombre'] == '', 'Nombre'] = 'Pepe'
print(df)

  Nombre  Edad    Ciudad
0   Pepe  28.0    Madrid
2   Juan  29.0  Valencia
3  Marta  42.0   Sevilla


## 6. FUSIÓN DE DATAFRAMES

In [8]:
df1 = pd.DataFrame({'ID': [1, 2, 3], 'Nombre': ['Ana', 'Luis', 'Juan']})
df2 = pd.DataFrame({'ID': [1, 2, 4], 'Salario': [50000, 60000, 70000]})
# fusionamos los dos DataFrames por la columna 'ID'. Con 'how' especificamos el tipo de unión y con 'on' la columna por la que se unen. 
# El tipo de unión puede ser 'inner', 'left', 'right' o 'outer'. 
# 'inner' solo incluye las filas que tienen el mismo valor en la columna 'ID' en ambos DataFrames.
df_merged = pd.merge(df1, df2, on='ID', how='inner') 
print(df_merged)

   ID Nombre  Salario
0   1    Ana    50000
1   2   Luis    60000
