<a href="https://colab.research.google.com/github/ETorresSacha/Analisis-de-datos/blob/main/Pandas.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

In [1]:
import pandas as pd

# series

In [None]:
numeros = [3,4,5,6,7]
serie = pd.Series(numeros)
serie, type(serie)

(0    3
 1    4
 2    5
 3    6
 4    7
 dtype: int64,
 pandas.core.series.Series)

In [None]:
data = {
    "Nombre":['Ana','Juan','Pedro','María','Luis'],
    "Edad":[22,25,28,23,20],
    "Ciudad":['Barcelona','Madrid','Valencia','Sevilla','Bilboa']}
data,type(data)

({'Nombre': ['Ana', 'Juan', 'Pedro', 'María', 'Luis'],
  'Edad': [22, 25, 28, 23, 20],
  'Ciudad': ['Barcelona', 'Madrid', 'Valencia', 'Sevilla', 'Bilboa']},
 dict)

In [None]:
# Generar un dataframe a partir de un diccionario
df = pd.DataFrame(data=data)
df

Unnamed: 0,Nombre,Edad,Ciudad
0,Ana,22,Barcelona
1,Juan,25,Madrid
2,Pedro,28,Valencia
3,María,23,Sevilla
4,Luis,20,Bilboa


#Leer un archivo csv

In [None]:
# exportar Dataframe
df.to_csv('data.csv')

In [None]:
# importar Dataframe
import_df = pd.read_csv('data.csv',index_col=0) # index_col: rlimina el indice
import_df

Unnamed: 0,Nombre,Edad,Ciudad
0,Ana,22,Barcelona
1,Juan,25,Madrid
2,Pedro,28,Valencia
3,María,23,Sevilla
4,Luis,20,Bilboa


In [None]:
# Seleccionar una columna
nombres = df["Nombre"]
print(nombres, type(nombres))

0      Ana
1     Juan
2    Pedro
3    María
4     Luis
Name: Nombre, dtype: object <class 'pandas.core.series.Series'>


In [None]:
# Seleccionar una o mas columnas
df[["Nombre","Edad"]]

Unnamed: 0,Nombre,Edad
0,Ana,22
1,Juan,25
2,Pedro,28
3,María,23
4,Luis,20


# Filtrar datos

In [None]:
# Filtrar por indice
fila = df.loc[2]
fila

Unnamed: 0,2
Nombre,Pedro
Edad,28
Ciudad,Valencia


In [None]:
# Filtrar por condición
df[df["Edad"]> 23]

Unnamed: 0,Nombre,Edad,Ciudad
1,Juan,25,Madrid
2,Pedro,28,Valencia


In [None]:
filtro = (df["Edad"]> 23) & (df['Nombre'].str.startswith("P"))
df[filtro]

Unnamed: 0,Nombre,Edad,Ciudad
2,Pedro,28,Valencia


In [None]:
# Filtrar por query
df.query("Edad > 23")

Unnamed: 0,Nombre,Edad,Ciudad
1,Juan,25,Madrid
2,Pedro,28,Valencia


In [None]:
df[df["Nombre"].isin(["Ana","Carlos","Luis"])]

Unnamed: 0,Nombre,Edad,Ciudad
0,Ana,22,Barcelona
4,Luis,20,Bilboa


In [None]:
def longitud_5(nombre): # función
  return len(nombre)==5

df[df['Nombre'].apply(longitud_5)]

Unnamed: 0,Nombre,Edad,Ciudad
2,Pedro,28,Valencia
3,María,23,Sevilla


In [None]:
# Filtrar por edades entre 25 y 35 años (inclusive)
df[df["Edad"].between(22,28)]

Unnamed: 0,Nombre,Edad,Ciudad
0,Ana,22,Barcelona
1,Juan,25,Madrid
2,Pedro,28,Valencia
3,María,23,Sevilla


# Limpiar o tratamiento de datos

```
# Esto tiene formato de código
```



In [2]:
import numpy as np

In [None]:
data = {
    "Nombre":['Ana','Juan','Pedro','María','Luis'],
    "Edad":[22,25,np.nan,23,20],
    "Ciudad":['Barcelona','Madrid','Valencia',None,'Bilboa']}

In [None]:
df = pd.DataFrame(data)
df

Unnamed: 0,Nombre,Edad,Ciudad
0,Ana,22.0,Barcelona
1,Juan,25.0,Madrid
2,Pedro,,Valencia
3,María,23.0,
4,Luis,20.0,Bilboa


In [None]:
# Rellenar los valores faltantes
df_fill = df.fillna(
    {
        "Edad":df['Edad'].mean(),
        "Ciudad": "Desconocido"
    }
)
df_fill

Unnamed: 0,Nombre,Edad,Ciudad
0,Ana,22.0,Barcelona
1,Juan,25.0,Madrid
2,Pedro,22.5,Valencia
3,María,23.0,Desconocido
4,Luis,20.0,Bilboa


In [None]:
df_sin_nan = df.dropna()
df_sin_nan

Unnamed: 0,Nombre,Edad,Ciudad
0,Ana,22.0,Barcelona
1,Juan,25.0,Madrid
4,Luis,20.0,Bilboa


In [None]:
# Reemplazar valores especificos de alguna columna
df_reem = df.replace(
    {
        "Ciudad":{None: "Desconocido"}
    }
)
df_reem

Unnamed: 0,Nombre,Edad,Ciudad
0,Ana,22.0,Barcelona
1,Juan,25.0,Madrid
2,Pedro,,Valencia
3,María,23.0,Desconocido
4,Luis,20.0,Bilboa


In [None]:
# Interpolar valores
df_interpolado = df.copy()
df_interpolado["Edad"] = df["Edad"].interpolate()
df_interpolado

Unnamed: 0,Nombre,Edad,Ciudad,Edad_Cuadrado
0,Ana,22.0,Barcelona,484.0
1,Juan,25.0,Madrid,625.0
2,Pedro,24.0,Valencia,
3,María,23.0,,529.0
4,Luis,20.0,Bilboa,400.0


In [None]:
data_duplicado = {
    "Nombre":['Ana','Juan','Pedro','María','Luis','Ana','Juan'],
    "Edad":[22,25,np.nan,23,20,22,25],
    "Ciudad":['Barcelona','Madrid','Valencia',None,'Bilboa','Barcelona','Madrid']}

In [None]:
df_duplicado = pd.DataFrame(data_duplicado)
df_duplicado

Unnamed: 0,Nombre,Edad,Ciudad
0,Ana,22.0,Barcelona
1,Juan,25.0,Madrid
2,Pedro,,Valencia
3,María,23.0,
4,Luis,20.0,Bilboa
5,Ana,22.0,Barcelona
6,Juan,25.0,Madrid


In [None]:
df_sin_duplicado = df_duplicado.drop_duplicates()
df_sin_duplicado

Unnamed: 0,Nombre,Edad,Ciudad
0,Ana,22.0,Barcelona
1,Juan,25.0,Madrid
2,Pedro,,Valencia
3,María,23.0,
4,Luis,20.0,Bilboa


In [None]:
# Renombrar columnas
df_renombrado = df.rename(columns={"Nombre":"Name","Edad":"Age","Ciudad":"City"})
df_renombrado

Unnamed: 0,Name,Age,City
0,Ana,22.0,Barcelona
1,Juan,25.0,Madrid
2,Pedro,,Valencia
3,María,23.0,
4,Luis,20.0,Bilboa


In [None]:
# Ordenar columnas
columnas_ordenados = ["Ciudad","Edad","Nombre"]
df_ordenado = df[columnas_ordenados]
df_ordenado

Unnamed: 0,Ciudad,Edad,Nombre
0,Barcelona,22.0,Ana
1,Madrid,25.0,Juan
2,Valencia,,Pedro
3,,23.0,María
4,Bilboa,20.0,Luis


In [None]:
# Transformación de datos
def cuadrados (x):
  return x**2
df["Edad_Cuadrado"] = df["Edad"].apply(cuadrados)
df

Unnamed: 0,Nombre,Edad,Ciudad,Edad_Cuadrado
0,Ana,22.0,Barcelona,484.0
1,Juan,25.0,Madrid,625.0
2,Pedro,,Valencia,
3,María,23.0,,529.0
4,Luis,20.0,Bilboa,400.0


# Agrupación de datos

In [11]:
data = {
    "Nombre":['Juan','Ana','Luis','Laura','Pedro','Carla'],
    "Ciudad":['Madrid','Barcelona','Madrid','Valencia','Barcelona','Madrid'],
    "Edad":[25,33,30,28,45,38],
    "Puntuación":[80,90,85,88,75,91]
    }
df = pd.DataFrame(data)
df

Unnamed: 0,Nombre,Ciudad,Edad,Puntuación
0,Juan,Madrid,25,80
1,Ana,Barcelona,33,90
2,Luis,Madrid,30,85
3,Laura,Valencia,28,88
4,Pedro,Barcelona,45,75
5,Carla,Madrid,38,91


In [12]:
# Agrupar los datos por ciudad
grouped = df.groupby("Ciudad")
print(grouped.groups)

{'Barcelona': [1, 4], 'Madrid': [0, 2, 5], 'Valencia': [3]}


In [13]:
#Calcular la suma de las edades y puntuaciones por ciudad
aggregated_data = grouped.agg(
    {
        "Edad":"mean",
        "Puntuación":"sum"
    }
)
aggregated_data

Unnamed: 0_level_0,Edad,Puntuación
Ciudad,Unnamed: 1_level_1,Unnamed: 2_level_1
Barcelona,39.0,165
Madrid,31.0,256
Valencia,28.0,88


In [16]:
# Definir una función de agregación personalizada
def rango(series):
  return series.max()-series.min()

# Aplicar la función agg por el grupo
aggregated_data_custom = grouped.agg(
    {
        "Edad":rango,
        "Puntuación":rango
    }
)

aggregated_data_custom

Unnamed: 0_level_0,Edad,Puntuación
Ciudad,Unnamed: 1_level_1,Unnamed: 2_level_1
Barcelona,12,15
Madrid,13,11
Valencia,0,0


In [17]:
data["Categoria"] = ["A","B","A","B","A","B"]
df = pd.DataFrame(data)
df

Unnamed: 0,Nombre,Ciudad,Edad,Puntuación,Categoria
0,Juan,Madrid,25,80,A
1,Ana,Barcelona,33,90,B
2,Luis,Madrid,30,85,A
3,Laura,Valencia,28,88,B
4,Pedro,Barcelona,45,75,A
5,Carla,Madrid,38,91,B


In [22]:
# Agrupar datos por ciudad y categoria
grouped_multi = df.groupby(["Ciudad","Categoria"])
grouped_multi.groups

{('Barcelona', 'A'): [4], ('Barcelona', 'B'): [1], ('Madrid', 'A'): [0, 2], ('Madrid', 'B'): [5], ('Valencia', 'B'): [3]}

In [24]:
# Calcular la suma de las edades y puntuaciones por ciudad y por categoria
aggregated_data_multi = grouped_multi.agg(
    {
        "Edad":"sum",
        "Puntuación":"mean"
    }
)
aggregated_data_multi

Unnamed: 0_level_0,Unnamed: 1_level_0,Edad,Puntuación
Ciudad,Categoria,Unnamed: 2_level_1,Unnamed: 3_level_1
Barcelona,A,45,75.0
Barcelona,B,33,90.0
Madrid,A,55,82.5
Madrid,B,38,91.0
Valencia,B,28,88.0


# Agregar datos a Dataframe

In [29]:
data ={'Nombre':['Juan','Ana','Luis','Laura'],
       'Edad':[25,33,30,28]}
df = pd.DataFrame(data)
df

Unnamed: 0,Nombre,Edad
0,Juan,25
1,Ana,33
2,Luis,30
3,Laura,28


In [30]:
# Agregar columna
df["Ciudad"] = ['Madrid','Barcelona','Madrid','Valencia']
df

Unnamed: 0,Nombre,Edad,Ciudad
0,Juan,25,Madrid
1,Ana,33,Barcelona
2,Luis,30,Madrid
3,Laura,28,Valencia


In [31]:
# Agregar una fila
new_row =pd.Series({'Nombre':'Pedro','Edad':45,'Ciudad':'Barcelona'})

# Agrgamos fila al DataFrame
df= pd.concat([df,new_row.to_frame().T],ignore_index=1)
df

Unnamed: 0,Nombre,Edad,Ciudad
0,Juan,25,Madrid
1,Ana,33,Barcelona
2,Luis,30,Madrid
3,Laura,28,Valencia
4,Pedro,45,Barcelona


# Convinar DataFrame

In [35]:
data ={'Nombre':['Juan','Ana','Luis','Laura'],
       'Edad':[25,33,30,28],
       'Ciudad':['Madrid','Barcelona','Madrid','Valencia']}
df1 = pd.DataFrame(data)
df1

Unnamed: 0,Nombre,Edad,Ciudad
0,Juan,25,Madrid
1,Ana,33,Barcelona
2,Luis,30,Madrid
3,Laura,28,Valencia


In [36]:
# nuevo DataFrame
data2 ={'Nombre':['Carla','Irene'],
        'Edad':[38,27],
        'Ciudad':['Madrid','Bilbao']}
df2 = pd.DataFrame(data2)
df2

Unnamed: 0,Nombre,Edad,Ciudad
0,Carla,38,Madrid
1,Irene,27,Bilbao


In [37]:
# Combinar
df_combined = pd.concat([df1,df2],ignore_index=1)
df_combined

Unnamed: 0,Nombre,Edad,Ciudad
0,Juan,25,Madrid
1,Ana,33,Barcelona
2,Luis,30,Madrid
3,Laura,28,Valencia
4,Carla,38,Madrid
5,Irene,27,Bilbao
