In [40]:
import pandas as pd

In [41]:
#Series de pandas
numeros = [3,4,5,6,7]
serie = pd.Series(numeros)
serie, type(serie)

(0    3
 1    4
 2    5
 3    6
 4    7
 dtype: int64,
 pandas.core.series.Series)

In [42]:
data = {
    "Nombre" : ["Ana", "Pedro", "Maria", "Luis", "Juan"],
    "Edad" : [22,25,34,21,28],
    "Ciudad": ["Sonsonate", "Santa Ana", "San Salvador","San Miguel", "Usulutan"]
}

data, type(data)

({'Nombre': ['Ana', 'Pedro', 'Maria', 'Luis', 'Juan'],
  'Edad': [22, 25, 34, 21, 28],
  'Ciudad': ['Sonsonate',
   'Santa Ana',
   'San Salvador',
   'San Miguel',
   'Usulutan']},
 dict)

In [43]:
#Generar un DataFrame apartir de un diccionario

df = pd.DataFrame(data=data)

df

Unnamed: 0,Nombre,Edad,Ciudad
0,Ana,22,Sonsonate
1,Pedro,25,Santa Ana
2,Maria,34,San Salvador
3,Luis,21,San Miguel
4,Juan,28,Usulutan


In [44]:
# exportar DataFrame

df.to_csv("data.csv")

In [45]:
# importar un DataFrame

import_df = pd.read_csv("data.csv", index_col=0)
import_df

Unnamed: 0,Nombre,Edad,Ciudad
0,Ana,22,Sonsonate
1,Pedro,25,Santa Ana
2,Maria,34,San Salvador
3,Luis,21,San Miguel
4,Juan,28,Usulutan


In [46]:
nombres = df["Nombre"]
print(nombres, type(nombres))

0      Ana
1    Pedro
2    Maria
3     Luis
4     Juan
Name: Nombre, dtype: object <class 'pandas.core.series.Series'>


In [47]:
# Seleccionar una o mas columnas
df = pd.DataFrame(data=data)
df[["Nombre","Edad"]]
#print(type(df))

Unnamed: 0,Nombre,Edad
0,Ana,22
1,Pedro,25
2,Maria,34
3,Luis,21
4,Juan,28


In [48]:
# filtrar por indice
fila = df.loc[2]
fila

Nombre           Maria
Edad                34
Ciudad    San Salvador
Name: 2, dtype: object

In [49]:
#filtrar por condiciones
df [df['Edad']>23]

Unnamed: 0,Nombre,Edad,Ciudad
1,Pedro,25,Santa Ana
2,Maria,34,San Salvador
4,Juan,28,Usulutan


In [50]:
#filtrar por dos condiciones
filtro = (df['Edad']>23) & (df['Nombre'].str.startswith('P'))
df[filtro]

Unnamed: 0,Nombre,Edad,Ciudad
1,Pedro,25,Santa Ana


In [51]:
#filtrar por query
df.query('Edad < 23')

Unnamed: 0,Nombre,Edad,Ciudad
0,Ana,22,Sonsonate
3,Luis,21,San Miguel


In [52]:
# extraer nombres especificos
df[df['Nombre'].isin(['Ana','Carlos','Juan'])]

Unnamed: 0,Nombre,Edad,Ciudad
0,Ana,22,Sonsonate
4,Juan,28,Usulutan


In [53]:
#filtro usando funcion
def longitud_5(nombre):
    return len(nombre) == 5
df[df['Nombre'].apply(longitud_5)] 

Unnamed: 0,Nombre,Edad,Ciudad
1,Pedro,25,Santa Ana
2,Maria,34,San Salvador


In [54]:
#filtrar por edades entre 25 y 35 (inclusive)
df[df['Edad'].between(25,35)]

Unnamed: 0,Nombre,Edad,Ciudad
1,Pedro,25,Santa Ana
2,Maria,34,San Salvador
4,Juan,28,Usulutan


In [55]:
import numpy as np


In [56]:
data = {
    "Nombre" : ["Ana", "Pedro", "Maria", "Luis", "Juan"],
    "Edad" : [22,25,np.nan,21,28],
    "Ciudad": ["Sonsonate", "Santa Ana", "San Salvador",None, "Usulutan"]
}
df = pd.DataFrame(data)
df

Unnamed: 0,Nombre,Edad,Ciudad
0,Ana,22.0,Sonsonate
1,Pedro,25.0,Santa Ana
2,Maria,,San Salvador
3,Luis,21.0,
4,Juan,28.0,Usulutan


In [57]:
#Rellenar los valores faltantes
df_fill = df.fillna(
    {
        'Edad' : df['Edad'].mean(), # si el valor de la edad es nulo lo reemplaza por la edad promedio
        'Ciudad' : 'Desconocido'
    }
)
df_fill 

Unnamed: 0,Nombre,Edad,Ciudad
0,Ana,22.0,Sonsonate
1,Pedro,25.0,Santa Ana
2,Maria,24.0,San Salvador
3,Luis,21.0,Desconocido
4,Juan,28.0,Usulutan


In [58]:
#eliminacion de fila con valores faltantes
df_sin_nan = df.dropna()
df_sin_nan

Unnamed: 0,Nombre,Edad,Ciudad
0,Ana,22.0,Sonsonate
1,Pedro,25.0,Santa Ana
4,Juan,28.0,Usulutan


In [59]:
#reemplazar valores especificos de alguna columna
df_reem = df.replace(
    {
        "Ciudad" : {None : 'Desconocido'}
    }
)
df_reem

Unnamed: 0,Nombre,Edad,Ciudad
0,Ana,22.0,Sonsonate
1,Pedro,25.0,Santa Ana
2,Maria,,San Salvador
3,Luis,21.0,Desconocido
4,Juan,28.0,Usulutan


In [60]:
# Interpolar valores
df_interpolado = df.copy()
df_interpolado['Edad'] = df['Edad'].interpolate()
df_interpolado

Unnamed: 0,Nombre,Edad,Ciudad
0,Ana,22.0,Sonsonate
1,Pedro,25.0,Santa Ana
2,Maria,23.0,San Salvador
3,Luis,21.0,
4,Juan,28.0,Usulutan


In [61]:
data_duplicada = {
    "Nombre" : ["Ana", "Pedro", "Maria", "Luis", "Juan","Ana","Pedro"],
    "Edad" : [22,25,np.nan,21,28,22,25],
    "Ciudad": ["Sonsonate", "Santa Ana", "San Salvador",None, "Usulutan","Sonsonate","Santa Ana"]
}
df_duplicado = pd.DataFrame(data_duplicada)
df_duplicado

Unnamed: 0,Nombre,Edad,Ciudad
0,Ana,22.0,Sonsonate
1,Pedro,25.0,Santa Ana
2,Maria,,San Salvador
3,Luis,21.0,
4,Juan,28.0,Usulutan
5,Ana,22.0,Sonsonate
6,Pedro,25.0,Santa Ana


In [62]:
# eliminar elementos duplicados
df_sin_duplicado = df_duplicado.drop_duplicates()
df_sin_duplicado

Unnamed: 0,Nombre,Edad,Ciudad
0,Ana,22.0,Sonsonate
1,Pedro,25.0,Santa Ana
2,Maria,,San Salvador
3,Luis,21.0,
4,Juan,28.0,Usulutan


In [63]:
# renombrar columnas 
df_renombrado = df.rename(
    columns={
        "Nombre" : "Name",
        "Edad" : "Age",
        "Ciudad" : "City"
    }
)
df_renombrado

Unnamed: 0,Name,Age,City
0,Ana,22.0,Sonsonate
1,Pedro,25.0,Santa Ana
2,Maria,,San Salvador
3,Luis,21.0,
4,Juan,28.0,Usulutan


In [64]:
# ordenar columnas
columnas_ordenadas = ["Ciudad","Edad","Nombre"]
df_ordenado = df[columnas_ordenadas]
df_ordenado

Unnamed: 0,Ciudad,Edad,Nombre
0,Sonsonate,22.0,Ana
1,Santa Ana,25.0,Pedro
2,San Salvador,,Maria
3,,21.0,Luis
4,Usulutan,28.0,Juan


In [65]:
# transformacion de datos
def cuadrado(x):
    return x**2

df["Edad_cuadrado"] = df["Edad"].apply(cuadrado)
df

Unnamed: 0,Nombre,Edad,Ciudad,Edad_cuadrado
0,Ana,22.0,Sonsonate,484.0
1,Pedro,25.0,Santa Ana,625.0
2,Maria,,San Salvador,
3,Luis,21.0,,441.0
4,Juan,28.0,Usulutan,784.0


In [66]:
# agrupacion de datos
data = {'Nombre': ['Juan','Ana','Luis','Laura','Pedro','Carla'],
        'Ciudad': ['Madrid','Barcelona','Madrid','Valencia','Barcelona','Madrid'],
        'Edad': [25,33,30,28,45,38],
        'Puntuacion': [80,90,85,88,75,91]

}
df = pd.DataFrame(data)
df

Unnamed: 0,Nombre,Ciudad,Edad,Puntuacion
0,Juan,Madrid,25,80
1,Ana,Barcelona,33,90
2,Luis,Madrid,30,85
3,Laura,Valencia,28,88
4,Pedro,Barcelona,45,75
5,Carla,Madrid,38,91


In [67]:
# agrupar por ciudad
grouped = df.groupby('Ciudad')
print(grouped.groups)

{'Barcelona': [1, 4], 'Madrid': [0, 2, 5], 'Valencia': [3]}


In [68]:
# Calcular la suma de las edades y puntuaciones por ciudad
aggregated_data = grouped.agg(
    {
        "Edad" : "mean",
        "Puntuacion" : "sum"
    }
)
aggregated_data 

Unnamed: 0_level_0,Edad,Puntuacion
Ciudad,Unnamed: 1_level_1,Unnamed: 2_level_1
Barcelona,39.0,165
Madrid,31.0,256
Valencia,28.0,88


In [69]:
# definir funcion de agregacion personalizada
def rango(series):
    return series.max() - series.min()

# Aplicar la funcion agg pesonalizada al grupo
aggregated_data_custom = grouped.agg(
    {
        "Edad" : rango,
        "Puntuacion" : rango
    }
)
aggregated_data_custom 

Unnamed: 0_level_0,Edad,Puntuacion
Ciudad,Unnamed: 1_level_1,Unnamed: 2_level_1
Barcelona,12,15
Madrid,13,11
Valencia,0,0


In [70]:
data["Categoria"] = ["A","B","A","B","A","B"]
df = pd.DataFrame(data)
df

Unnamed: 0,Nombre,Ciudad,Edad,Puntuacion,Categoria
0,Juan,Madrid,25,80,A
1,Ana,Barcelona,33,90,B
2,Luis,Madrid,30,85,A
3,Laura,Valencia,28,88,B
4,Pedro,Barcelona,45,75,A
5,Carla,Madrid,38,91,B


In [71]:
# Agrupar datos por ciudad y categoria
grouped_multi = df.groupby(['Ciudad', 'Categoria'])
grouped_multi.groups

{('Barcelona', 'A'): [4], ('Barcelona', 'B'): [1], ('Madrid', 'A'): [0, 2], ('Madrid', 'B'): [5], ('Valencia', 'B'): [3]}

In [72]:
# Calcular la suma de las edades y puntuacion por ciudad y por categoria
aggregated_data_multi = grouped_multi.agg(
    {
        "Edad" : "sum",
        "Puntuacion" : "mean"
    }
)
aggregated_data_multi

Unnamed: 0_level_0,Unnamed: 1_level_0,Edad,Puntuacion
Ciudad,Categoria,Unnamed: 2_level_1,Unnamed: 3_level_1
Barcelona,A,45,75.0
Barcelona,B,33,90.0
Madrid,A,55,82.5
Madrid,B,38,91.0
Valencia,B,28,88.0


In [73]:
# Agregar una columna 
# Crear una DataFrame de ejemplo
data = {'Nombre': ['Juan', 'Pedro','Ana','Luis'],
        'Edad': [25,33,30,28]}
df = pd.DataFrame(data)
df

Unnamed: 0,Nombre,Edad
0,Juan,25
1,Pedro,33
2,Ana,30
3,Luis,28


In [74]:
# Agregar una columna 
df["Ciudad"] = ["Sonsonate", "Santa Ana", "Sonsonate", "San Salvador"]
df

Unnamed: 0,Nombre,Edad,Ciudad
0,Juan,25,Sonsonate
1,Pedro,33,Santa Ana
2,Ana,30,Sonsonate
3,Luis,28,San Salvador


In [75]:
# Generamos una nueva fila 
new_row = pd.Series({"Nombre": "Luis", "Edad": 34, "Ciudad": "San Miguel"})

# Agregamos fila al DataFrame  (el panda series se convierte a Dataframe)
df = pd.concat([df,new_row.to_frame().T], ignore_index=True)
df

Unnamed: 0,Nombre,Edad,Ciudad
0,Juan,25,Sonsonate
1,Pedro,33,Santa Ana
2,Ana,30,Sonsonate
3,Luis,28,San Salvador
4,Luis,34,San Miguel


In [81]:
data = {'Nombre': ['Juan', 'Pedro','Ana','Luis'],
        'Edad': [25,33,30,28]}
df1 = pd.DataFrame(data)
df1["Ciudad"] = ["Sonsonate", "Santa Ana", "Sonsonate", "San Salvador"]
df1	
# Creamos otro DataFrame de ejemplo

data2 = {'Nombre': ['Karla', 'Irene'],
         'Edad' : [38,27],
         'Ciudad' : ['Sonsonate','La Libertad']}
df2 = pd.DataFrame(data2)

df1

Unnamed: 0,Nombre,Edad,Ciudad
0,Juan,25,Sonsonate
1,Pedro,33,Santa Ana
2,Ana,30,Sonsonate
3,Luis,28,San Salvador


In [82]:
df2

Unnamed: 0,Nombre,Edad,Ciudad
0,Karla,38,Sonsonate
1,Irene,27,La Libertad


In [83]:
# Combinar dos Dataframe
df_combined = pd.concat([df1,df2], ignore_index=True)
df_combined

Unnamed: 0,Nombre,Edad,Ciudad
0,Juan,25,Sonsonate
1,Pedro,33,Santa Ana
2,Ana,30,Sonsonate
3,Luis,28,San Salvador
4,Karla,38,Sonsonate
5,Irene,27,La Libertad


In [84]:
import numpy as np

In [85]:
# Crear un arreglo con 5 elementos
arr1 = np.array([1,2,3,4,5])

print("Arreglo 1D: ", arr1)
print("Forma(shape): ", arr1.shape)
print("Tipo de datos(dtype) ", arr1.dtype)

Arreglo 1D:  [1 2 3 4 5]
Forma(shape):  (5,)
Tipo de datos(dtype)  int64
