In [94]:
import pandas as pd
import matplotlib as plt
import numpy as np
import seaborn as sns

# Series de pandas

In [95]:
numeros = [3, 4, 5, 6, 7]
serie = pd.Series(numeros)
serie, type(serie)

(0    3
 1    4
 2    5
 3    6
 4    7
 dtype: int64,
 pandas.core.series.Series)

In [96]:
data = {
  "Nombre": ["Ana", "Juan", "Pedro", "María", "Luis"],
  "Edad": [22, 25, 28, 23, 20],
  "Ciudad": ["Barcelona", "Madrid", "Valencia", "Sevilla", "Bilbao"]
}
data, type(data)

({'Nombre': ['Ana', 'Juan', 'Pedro', 'María', 'Luis'],
  'Edad': [22, 25, 28, 23, 20],
  'Ciudad': ['Barcelona', 'Madrid', 'Valencia', 'Sevilla', 'Bilbao']},
 dict)

In [97]:
df = pd.DataFrame(data=data)
df

Unnamed: 0,Nombre,Edad,Ciudad
0,Ana,22,Barcelona
1,Juan,25,Madrid
2,Pedro,28,Valencia
3,María,23,Sevilla
4,Luis,20,Bilbao


# Exportar e Importar un DataFrame

In [98]:
df.to_csv('data.csv')

In [99]:
import_df = pd.read_csv('data.csv', index_col=0)
import_df

Unnamed: 0,Nombre,Edad,Ciudad
0,Ana,22,Barcelona
1,Juan,25,Madrid
2,Pedro,28,Valencia
3,María,23,Sevilla
4,Luis,20,Bilbao


# Manipulacion de datos

In [100]:
# Seleccionar columna
nombres = df['Nombre']
nombres, type(nombres)

(0      Ana
 1     Juan
 2    Pedro
 3    María
 4     Luis
 Name: Nombre, dtype: object,
 pandas.core.series.Series)

In [101]:
# Seleccionar una o mas columnas
df[['Nombre','Edad']]

Unnamed: 0,Nombre,Edad
0,Ana,22
1,Juan,25
2,Pedro,28
3,María,23
4,Luis,20


In [102]:
# Filtrar por indice
fila = df.loc[2]
fila

Nombre       Pedro
Edad            28
Ciudad    Valencia
Name: 2, dtype: object

In [103]:
# Filtrar por condición
df[df['Edad']>23]

Unnamed: 0,Nombre,Edad,Ciudad
1,Juan,25,Madrid
2,Pedro,28,Valencia


In [104]:
filtro = (df['Edad'] > 23) & (df['Nombre'].str.startswith('P'))
df[filtro]

Unnamed: 0,Nombre,Edad,Ciudad
2,Pedro,28,Valencia


In [105]:
# Filtrar por query
df.query('Edad < 23')

Unnamed: 0,Nombre,Edad,Ciudad
0,Ana,22,Barcelona
4,Luis,20,Bilbao


In [106]:
df[df['Nombre'].isin(['Ana', 'Carlos', 'Luis'])]

Unnamed: 0,Nombre,Edad,Ciudad
0,Ana,22,Barcelona
4,Luis,20,Bilbao


In [107]:
def longitud_5(nombres):
    return len(nombres) == 5

df[df['Nombre'].apply(longitud_5)]

Unnamed: 0,Nombre,Edad,Ciudad
2,Pedro,28,Valencia
3,María,23,Sevilla


In [108]:
# Filtrar por edades entre 25 y 35
df[df['Edad'].between(25, 35)]


Unnamed: 0,Nombre,Edad,Ciudad
1,Juan,25,Madrid
2,Pedro,28,Valencia


In [109]:
data = {
  "Nombre": ["Ana", "Juan", "Pedro", "María", "Luis"],
  "Edad": [22, 25, np.nan, 23, 20],
  "Ciudad": ["Barcelona", "Madrid", "Valencia", None, "Bilbao"]
}
df = pd.DataFrame(data)
df

Unnamed: 0,Nombre,Edad,Ciudad
0,Ana,22.0,Barcelona
1,Juan,25.0,Madrid
2,Pedro,,Valencia
3,María,23.0,
4,Luis,20.0,Bilbao


In [110]:
# Rellenar los valores faltantes
df_fill = df.fillna({
    'Edad' : df['Edad'].mean(),
    'Ciudad' : 'Desconocido' 
})
df_fill

Unnamed: 0,Nombre,Edad,Ciudad
0,Ana,22.0,Barcelona
1,Juan,25.0,Madrid
2,Pedro,22.5,Valencia
3,María,23.0,Desconocido
4,Luis,20.0,Bilbao


In [111]:
# Eliminar filas de datos faltantes
df_sin_nan = df.dropna()
df_sin_nan

Unnamed: 0,Nombre,Edad,Ciudad
0,Ana,22.0,Barcelona
1,Juan,25.0,Madrid
4,Luis,20.0,Bilbao


In [112]:
# Reemplazar valores expecificos de una columna
df_reem = df.replace({
    'Ciudad' : {None : 'Desconocido'}
})
df_reem

Unnamed: 0,Nombre,Edad,Ciudad
0,Ana,22.0,Barcelona
1,Juan,25.0,Madrid
2,Pedro,,Valencia
3,María,23.0,Desconocido
4,Luis,20.0,Bilbao


In [113]:
# Interpolar valores
df_interpolado = df.copy()
df_interpolado['Edad'] = df['Edad'].interpolate()
df_interpolado

Unnamed: 0,Nombre,Edad,Ciudad
0,Ana,22.0,Barcelona
1,Juan,25.0,Madrid
2,Pedro,24.0,Valencia
3,María,23.0,
4,Luis,20.0,Bilbao


In [114]:
data_duplicado = {
    'Nombre': ['Ana', 'Juan', 'Pedro', 'Maria', 'Luis', 'Ana', 'Juan'],
    'Edad': [22, 25, np.nan, 23, 20, 22, 25],
    'Ciudad': ['Barcelona', 'Madrid', 'Valencia', None, 'Bilbao', 'Barcelona', 'Madrid']
}
df_duplicado = pd.DataFrame(data_duplicado)
df_duplicado


Unnamed: 0,Nombre,Edad,Ciudad
0,Ana,22.0,Barcelona
1,Juan,25.0,Madrid
2,Pedro,,Valencia
3,Maria,23.0,
4,Luis,20.0,Bilbao
5,Ana,22.0,Barcelona
6,Juan,25.0,Madrid


In [115]:
# Eliminar datos duplicados
df_sin_duplicados = df_duplicado.drop_duplicates()
df_sin_duplicados

Unnamed: 0,Nombre,Edad,Ciudad
0,Ana,22.0,Barcelona
1,Juan,25.0,Madrid
2,Pedro,,Valencia
3,Maria,23.0,
4,Luis,20.0,Bilbao


In [116]:
# Renombrar columnas
df_renombrado = df.rename(columns={
    'Nombre' : 'Name',
    'Edad' : 'Age',
    'Ciudad' : 'City'
})
df_renombrado

Unnamed: 0,Name,Age,City
0,Ana,22.0,Barcelona
1,Juan,25.0,Madrid
2,Pedro,,Valencia
3,María,23.0,
4,Luis,20.0,Bilbao


In [117]:
# Poner un orden a las columnas
columnas_ordenadas = ['Ciudad', 'Edad', 'Nombre']
df_ordenado = df[columnas_ordenadas]
df_ordenado

Unnamed: 0,Ciudad,Edad,Nombre
0,Barcelona,22.0,Ana
1,Madrid,25.0,Juan
2,Valencia,,Pedro
3,,23.0,María
4,Bilbao,20.0,Luis


In [118]:
# Transformacion de datos
def cuadrado(x):
    return x**2

df['Edad_Cuadrado'] = df['Edad'].apply(cuadrado)
df

Unnamed: 0,Nombre,Edad,Ciudad,Edad_Cuadrado
0,Ana,22.0,Barcelona,484.0
1,Juan,25.0,Madrid,625.0
2,Pedro,,Valencia,
3,María,23.0,,529.0
4,Luis,20.0,Bilbao,400.0


In [119]:
# Agrupar datos
data = {
    "Nombre": ["Juan", "Ana", "Luis", "Laura", "Pedro", "Carla"],
    "Ciudad": ["Madrid", "Barcelona", "Madrid", "Valencia", "Barcelona", "Madrid"],
    "Edad": [25, 33, 38, 28, 45, 38],
    "Puntuación": [88, 98, 85, 88, 75, 91]
}
df = pd.DataFrame(data)
df

Unnamed: 0,Nombre,Ciudad,Edad,Puntuación
0,Juan,Madrid,25,88
1,Ana,Barcelona,33,98
2,Luis,Madrid,38,85
3,Laura,Valencia,28,88
4,Pedro,Barcelona,45,75
5,Carla,Madrid,38,91


In [120]:
# Agrupar los datos por ciudad
grouped = df.groupby('Ciudad')
grouped.groups

{'Barcelona': [1, 4], 'Madrid': [0, 2, 5], 'Valencia': [3]}

In [121]:
# Agregacion de datos
# Calcular la suma de las edades y puntuacion por ciudad
aggregated_data = grouped.agg({
    'Edad' : 'mean',
    'Puntuación' : 'sum'
})
aggregated_data

Unnamed: 0_level_0,Edad,Puntuación
Ciudad,Unnamed: 1_level_1,Unnamed: 2_level_1
Barcelona,39.0,173
Madrid,33.666667,264
Valencia,28.0,88


In [122]:
# funcion de Agregacion personalizadas
def rango(series): 
    return series.max() - series.min()

# Aplicar la funcion
aggregated_data_custom = grouped.agg({
    'Edad' : rango,
    'Puntuación' : rango
})
aggregated_data_custom

Unnamed: 0_level_0,Edad,Puntuación
Ciudad,Unnamed: 1_level_1,Unnamed: 2_level_1
Barcelona,12,23
Madrid,13,6
Valencia,0,0


In [123]:
data['Categoria'] = ['A', 'B', 'A', 'B', 'A', 'B']
df = pd.DataFrame(data)
df

Unnamed: 0,Nombre,Ciudad,Edad,Puntuación,Categoria
0,Juan,Madrid,25,88,A
1,Ana,Barcelona,33,98,B
2,Luis,Madrid,38,85,A
3,Laura,Valencia,28,88,B
4,Pedro,Barcelona,45,75,A
5,Carla,Madrid,38,91,B


In [124]:
# Agrupar datos por ciudad y categoria
grouped_multi = df.groupby(['Ciudad', 'Categoria'])
grouped_multi.groups

{('Barcelona', 'A'): [4], ('Barcelona', 'B'): [1], ('Madrid', 'A'): [0, 2], ('Madrid', 'B'): [5], ('Valencia', 'B'): [3]}

In [125]:
# Calcular la suma de las edades y puntuacion por ciudad y categoria
aggregated_data_multi = grouped_multi.agg({
    'Edad' : 'sum',
    'Puntuación' : 'mean'
})
aggregated_data_multi

Unnamed: 0_level_0,Unnamed: 1_level_0,Edad,Puntuación
Ciudad,Categoria,Unnamed: 2_level_1,Unnamed: 3_level_1
Barcelona,A,45,75.0
Barcelona,B,33,98.0
Madrid,A,63,86.5
Madrid,B,38,91.0
Valencia,B,28,88.0


# Agregar nuevos datos a un DataFrame

In [126]:
data = {'Nombre': ['Juan', 'Ana', 'Luis', 'Laura'],
        'Edad': [25, 33, 30, 28]}
df = pd.DataFrame(data)
df

Unnamed: 0,Nombre,Edad
0,Juan,25
1,Ana,33
2,Luis,30
3,Laura,28


In [127]:
# Agregar una columna
df['Ciudad'] = ['Madrid', 'Barcelona', 'Madrid', 'Valencia']
df

Unnamed: 0,Nombre,Edad,Ciudad
0,Juan,25,Madrid
1,Ana,33,Barcelona
2,Luis,30,Madrid
3,Laura,28,Valencia


In [128]:
# Agregar una nueva fila
new_row = pd.Series({
    'Nombre' : 'Pedro',
    'Edad' : 45,
    'Ciudad' : 'Barcelona'})
df = pd.concat([df, new_row.to_frame().T], ignore_index=True)
df

Unnamed: 0,Nombre,Edad,Ciudad
0,Juan,25,Madrid
1,Ana,33,Barcelona
2,Luis,30,Madrid
3,Laura,28,Valencia
4,Pedro,45,Barcelona


# Combinar DataFrames

In [131]:
data = {'Nombre': ['Juan', 'Ana', 'Luis', 'Laura'],
        'Edad': [25, 33, 30, 28],
        'Ciudad' : ['Madrid', 'Barcelona', 'Madrid', 'Valencia']}
df1 = pd.DataFrame(data)
data2 = {
    'Nombre': ['Carla', 'Irene'],
    'Edad': [38, 27],
    'Ciudad': ['Madrid', 'Bilbao']
}

df2 = pd.DataFrame(data2)


In [132]:
df1

Unnamed: 0,Nombre,Edad,Ciudad
0,Juan,25,Madrid
1,Ana,33,Barcelona
2,Luis,30,Madrid
3,Laura,28,Valencia


In [133]:
df2

Unnamed: 0,Nombre,Edad,Ciudad
0,Carla,38,Madrid
1,Irene,27,Bilbao


In [135]:
# Combinación
df_combined = pd.concat([df1, df2], ignore_index=True)
df_combined

Unnamed: 0,Nombre,Edad,Ciudad
0,Juan,25,Madrid
1,Ana,33,Barcelona
2,Luis,30,Madrid
3,Laura,28,Valencia
4,Carla,38,Madrid
5,Irene,27,Bilbao
