# Libreria Pandas III - Ejemplos de uso + Ejercicio Práctico

![logo](img/pandas-logo.png)

## 1. CREACIÓN DE UN DATAFRAME

In [2]:
import warnings
warnings.filterwarnings("ignore")

In [3]:
## UTILIZA ESTE DATAFRAME PARA REALIZAR LOS EJERCICIOS, SIGUIENDO LAS MISMAS PAUTAS QUE EN ESTE EJEMPLO
import pandas as pd
df = pd.DataFrame(data={"Pais":['Mexico','Argentina','Espana','Colombia'],
                        "Poblacion":[127212000, 45167000, 47099000, 48922000],
                        "Capital":['CDMX','Buenos Aires','Madrid','Bogota']})

In [4]:
##import pandas as pd
##data = {
##    'Nombre': ['Ana', 'Luis', 'Juan', 'Marta'],
##    'Edad': [28, 34, 29, 42],
##    'Ciudad': ['Madrid', 'Barcelona', 'Valencia', 'Sevilla']
##}

##df = pd.DataFrame(data)
print(df)
print()
print(df.shape)
print()
print(df.dtypes)
print()
print(df.describe()) # Estadísticas descriptivas sobre columnas numéricas

        Pais  Poblacion       Capital
0     Mexico  127212000          CDMX
1  Argentina   45167000  Buenos Aires
2     Espana   47099000        Madrid
3   Colombia   48922000        Bogota

(4, 3)

Pais         object
Poblacion     int64
Capital      object
dtype: object

          Poblacion
count  4.000000e+00
mean   6.710000e+07
std    4.010398e+07
min    4.516700e+07
25%    4.661600e+07
50%    4.801050e+07
75%    6.849450e+07
max    1.272120e+08


## 2. LECTURA FICHERO CSV

In [8]:
df_test = pd.read_csv('datasets/test2.csv')
print(df_test.head())  # Muestra las primeras 5 filas del DataFrame

   col1  col2  col3
0     1     2     3
1     3     4     5
2     5     6     7


## 3. FILTRADO DE DATOS

In [9]:
# Filtrar las filas donde la edad es mayor a 30
filtro = df[df['Poblacion'] > 30]
print(filtro)

        Pais  Poblacion       Capital
0     Mexico  127212000          CDMX
1  Argentina   45167000  Buenos Aires
2     Espana   47099000        Madrid
3   Colombia   48922000        Bogota


In [13]:
# localización de elementos
print(df.loc[2, 'Poblacion'])

47099000


In [14]:
# localización de filas(registros)
print(df.loc[0])

Pais            Mexico
Poblacion    127212000
Capital           CDMX
Name: 0, dtype: object


In [16]:
print(df.iloc[3,:])  # localización por índice

Pais         Colombia
Poblacion    48922000
Capital        Bogota
Name: 3, dtype: object


## 4. AGRUPACIÓN Y AGREGACIÓN

In [18]:
# Calcular la edad promedio por ciudad
edad_promedio = df.groupby('Capital')['Poblacion'].mean()
print(edad_promedio)

Capital
Bogota           48922000.0
Buenos Aires     45167000.0
CDMX            127212000.0
Madrid           47099000.0
Name: Poblacion, dtype: float64


## 5. GESTIÓN DE DATOS FALTANTES (MISSING VALUES)

In [19]:
# Localización de nulos
print(df.isnull())
print(df.isnull().sum())    # Cantidad de nulos por columna

    Pais  Poblacion  Capital
0  False      False    False
1  False      False    False
2  False      False    False
3  False      False    False
Pais         0
Poblacion    0
Capital      0
dtype: int64


In [33]:
import numpy as np
df.loc[1, 'Poblacion'] = np.nan
df 

Unnamed: 0,Pais,Poblacion,Capital
0,Mexico,127212000.0,CDMX
1,Argentina,,Buenos Aires
2,Espana,47099000.0,Madrid
3,Colombia,48922000.0,Bogota


In [34]:
# Llenar valores faltantes con la media de la columna
df.fillna(df['Poblacion'].mean(), inplace=False) # inplace = false para no modificar el DataFrame original. Muestra la operación pero no lo hace realmente

Unnamed: 0,Pais,Poblacion,Capital
0,Mexico,127212000.0,CDMX
1,Argentina,74411000.0,Buenos Aires
2,Espana,47099000.0,Madrid
3,Colombia,48922000.0,Bogota


In [35]:
print(df)

        Pais    Poblacion       Capital
0     Mexico  127212000.0          CDMX
1  Argentina          NaN  Buenos Aires
2     Espana   47099000.0        Madrid
3   Colombia   48922000.0        Bogota


In [37]:

df.fillna(df['Poblacion'].mean(), inplace=False)
df_new = df.fillna(df['Poblacion'].mean(), inplace=False) # inplace=False crea una copia del DataFrame original
print(df_new)
print()
df['Poblacion'].fillna(df['Poblacion'].mean(), inplace=True)# inplace=True modifica el DataFrame original, en el caso de que sea False, se crea una copia del DataFrame
print(df)

       Pais    Poblacion Capital
0    Mexico  127212000.0    CDMX
2    Espana   47099000.0  Madrid
3  Colombia   48922000.0  Bogota

       Pais    Poblacion Capital
0    Mexico  127212000.0    CDMX
2    Espana   47099000.0  Madrid
3  Colombia   48922000.0  Bogota


In [38]:
# Eliminar filas con valores nulos
df.dropna(inplace=True) # inplace=True modifica el DataFrame original
print(df) # Se elimina la fila con valores nulos

       Pais    Poblacion Capital
0    Mexico  127212000.0    CDMX
2    Espana   47099000.0  Madrid
3  Colombia   48922000.0  Bogota


In [45]:
# insertar valor vacío en elemento específico texto
df.loc[0, 'Pais'] = ''   # Se inserta un valor vacio en la fila 0, columna Nombre
print(df)

       Pais    Poblacion Capital
0            127212000.0    CDMX
2    Espana   47099000.0  Madrid
3  Colombia   48922000.0  Bogota


In [46]:
# localización de texto vacío
print(df['Pais'] == '')   # Muestra True en la fila 0 y False en las demás

0     True
2    False
3    False
Name: Pais, dtype: bool


In [47]:
# Sustituir texto vacío por un texto específico
df.loc[df['Pais'] == '', 'Pais'] = 'Asturias'  # Sustituye el texto vacío por Asturias
print(df)

       Pais    Poblacion Capital
0  Asturias  127212000.0    CDMX
2    Espana   47099000.0  Madrid
3  Colombia   48922000.0  Bogota


## 6. FUSIÓN DE DATAFRAMES

In [49]:
df1 = pd.DataFrame({'ID': [1, 2, 3], 'Nombre': ['Ana', 'Luis', 'Juan']})
df2 = pd.DataFrame({'ID': [1, 2, 4], 'Salario': [50000, 60000, 70000]})
# fusionamos los dos DataFrames por la columna 'ID'. Con 'how' especificamos el tipo de unión y con 'on' la columna por la que se unen. 
# El tipo de unión puede ser 'inner', 'left', 'right' o 'outer'. 
# 'inner' solo incluye las filas que tienen el mismo valor en la columna 'ID' en ambos DataFrames.
df_merged = pd.merge(df1, df2, on='ID', how='inner') 
print(df1)
print(df2)
print(df_merged)

   ID Nombre
0   1    Ana
1   2   Luis
2   3   Juan
   ID  Salario
0   1    50000
1   2    60000
2   4    70000
   ID Nombre  Salario
0   1    Ana    50000
1   2   Luis    60000
