In [79]:
import pandas as pd

In [80]:
# Series de pandas
numeros = [3,5,7,9]
series = pd.Series(numeros)
series, type(series)

(0    3
 1    5
 2    7
 3    9
 dtype: int64,
 pandas.core.series.Series)

In [81]:
data = {
    "Nombre": ["Ana", "Luis", "Carlos", "Marta"],
    "Edad":[20, 43, 18, 35],
    "Ciudad":["Madrid", "Medellin", "Valencia", "Sevilla" ]
}
print(data), type(data)

{'Nombre': ['Ana', 'Luis', 'Carlos', 'Marta'], 'Edad': [20, 43, 18, 35], 'Ciudad': ['Madrid', 'Medellin', 'Valencia', 'Sevilla']}


(None, dict)

In [82]:
# Generacion de DataFrame a partir de un diccionario
df = pd.DataFrame(data = data)
df.head()

Unnamed: 0,Nombre,Edad,Ciudad
0,Ana,20,Madrid
1,Luis,43,Medellin
2,Carlos,18,Valencia
3,Marta,35,Sevilla


In [83]:
# Exportar dataframe a un archivo CSV
df.to_csv("data.csv")

In [84]:
#importar un dataframe desde un archivo CSV
import_df = pd.read_csv("data.csv", index_col = 0)
import_df.head()

Unnamed: 0,Nombre,Edad,Ciudad
0,Ana,20,Madrid
1,Luis,43,Medellin
2,Carlos,18,Valencia
3,Marta,35,Sevilla


In [85]:
#Seleccion de columna de datos
nombres = df["Nombre"]
nombres.head()

0       Ana
1      Luis
2    Carlos
3     Marta
Name: Nombre, dtype: object

In [86]:
df[["Nombre", "Ciudad"]]

Unnamed: 0,Nombre,Ciudad
0,Ana,Madrid
1,Luis,Medellin
2,Carlos,Valencia
3,Marta,Sevilla


In [87]:
fila = df.loc[1]
fila.head()

Nombre        Luis
Edad            43
Ciudad    Medellin
Name: 1, dtype: object

In [88]:
df[df["Edad"] > 20]

Unnamed: 0,Nombre,Edad,Ciudad
1,Luis,43,Medellin
3,Marta,35,Sevilla


In [89]:
(df["Nombre"].str.startswith("L"))

0    False
1     True
2    False
3    False
Name: Nombre, dtype: bool

In [90]:
filtro = (df["Edad"]>30) & (df["Ciudad"].str.startswith("M"))
df[filtro]

Unnamed: 0,Nombre,Edad,Ciudad
1,Luis,43,Medellin


In [91]:
df.query("Edad < 40")

Unnamed: 0,Nombre,Edad,Ciudad
0,Ana,20,Madrid
2,Carlos,18,Valencia
3,Marta,35,Sevilla


In [92]:
df[df["Nombre"].isin(["Carlos", "Ana", "Jose"])]

Unnamed: 0,Nombre,Edad,Ciudad
0,Ana,20,Madrid
2,Carlos,18,Valencia


In [93]:
import numpy as np

In [None]:
data = {
    "Nombre": ["Ana", "Luis", "Carlos", "Marta", "Jose", "Juan"],
    "Edad":[20, 43, np.nan, 35, 28, 50],
    "Ciudad":["Madrid", "Medellin", "Valencia", None, "Barcelona", "Bilbao" ],
}

df =pd.DataFrame(data)
df

Unnamed: 0,Nombre,Edad,Ciudad
0,Ana,20.0,Madrid
1,Luis,43.0,Medellin
2,Carlos,,Valencia
3,Marta,35.0,


In [95]:
# Rellenar valores nulos con la media de la columna
df_fill= df.fillna(
    {
        "Edad": df['Edad'].mean(),
        "Ciudad": "Desconocida"
        
    }
)
df_fill.head()

Unnamed: 0,Nombre,Edad,Ciudad
0,Ana,20.0,Madrid
1,Luis,43.0,Medellin
2,Carlos,35.2,Valencia
3,Marta,35.0,Desconocida
4,Jose,28.0,Barcelona


In [96]:
#Eliminacion valores nulos
df_sin_nan = df.dropna()
df_sin_nan.head()

Unnamed: 0,Nombre,Edad,Ciudad
0,Ana,20.0,Madrid
1,Luis,43.0,Medellin
4,Jose,28.0,Barcelona
5,Juan,50.0,Bilbao


In [97]:
#Remplazar valores de una columna
df_replace = df.replace(
    {
        "Ciudad": {None: "Desconocida"},
        "Edad": {np.nan: df['Edad'].mean()}
    }
)
df_replace.head()

Unnamed: 0,Nombre,Edad,Ciudad
0,Ana,20.0,Madrid
1,Luis,43.0,Medellin
2,Carlos,35.2,Valencia
3,Marta,35.0,Desconocida
4,Jose,28.0,Barcelona


In [98]:
# Interpolar valores
df_interpolado = df.copy()
df_interpolado["Edad"] = df["Edad"].interpolate()
df_interpolado.head()

Unnamed: 0,Nombre,Edad,Ciudad
0,Ana,20.0,Madrid
1,Luis,43.0,Medellin
2,Carlos,39.0,Valencia
3,Marta,35.0,
4,Jose,28.0,Barcelona


In [108]:
data_duplicada= {
    "Nombre": ["Ana", "Luis", "Carlos", "Marta", "Jose", "Juan", "Ana", "Luis"],
    "Edad":[20, 43, np.nan, 35, 28, 50, 20, 43],
    "Ciudad":["Madrid", "Medellin", "Valencia", None, "Barcelona", "Bilbao", "Madrid", "Medellin"],
}
df_duplicados = pd.DataFrame(data_duplicada)
df_duplicados


Unnamed: 0,Nombre,Edad,Ciudad
0,Ana,20.0,Madrid
1,Luis,43.0,Medellin
2,Carlos,,Valencia
3,Marta,35.0,
4,Jose,28.0,Barcelona
5,Juan,50.0,Bilbao
6,Ana,20.0,Madrid
7,Luis,43.0,Medellin


In [109]:
# Eliminacion de duplicados
df_sin_duplicados = df_duplicados.drop_duplicates()
df_sin_duplicados

Unnamed: 0,Nombre,Edad,Ciudad
0,Ana,20.0,Madrid
1,Luis,43.0,Medellin
2,Carlos,,Valencia
3,Marta,35.0,
4,Jose,28.0,Barcelona
5,Juan,50.0,Bilbao


In [110]:
# Cambiar nombre de columnas
df_renombrado = df.rename(
    columns={
        "Nombre": "Name",
        "Edad": "Age",
        "Ciudad": "City"
    }
)
df_renombrado


Unnamed: 0,Name,Age,City
0,Ana,20.0,Madrid
1,Luis,43.0,Medellin
2,Carlos,,Valencia
3,Marta,35.0,
4,Jose,28.0,Barcelona
5,Juan,50.0,Bilbao
