Como tratar con los datos

In [17]:
import pandas as pd
import numpy as np

In [3]:
data = {
    'Nombre':['Blas','Bruno','Marina','Carlos','Pedro','Luis'],
    'Edad' :[np.nan,39,39,18,np.nan,33],
    'Ciudad':['Tucuman',None,'Jujuy',None,'Mendoza','Chaco']
}          
data     #Creamos un df con errores como nan en edad y None en cuidad 

{'Nombre': ['Blas', 'Bruno', 'Marina', 'Carlos', 'Pedro', 'Luis'],
 'Edad': [nan, 39, 39, 18, nan, 33],
 'Ciudad': ['Tucuman', None, 'Jujuy', None, 'Mendoza', 'Chaco']}

In [4]:
df = pd.DataFrame(data)

In [5]:
df  #mostramos el Df con errores

Unnamed: 0,Nombre,Edad,Ciudad
0,Blas,,Tucuman
1,Bruno,39.0,
2,Marina,39.0,Jujuy
3,Carlos,18.0,
4,Pedro,,Mendoza
5,Luis,33.0,Chaco


Como tratar los datos faltantes

In [6]:
df_fill= df.fillna(
    {
        'Edad': df['Edad'].mean(),
        'Ciudad': 'Desconocida'
    }
)
df_fill  #corregimos los valores faltante con el promedio en la edad y en cuidad lo cambiamos por desconocida

Unnamed: 0,Nombre,Edad,Ciudad
0,Blas,32.25,Tucuman
1,Bruno,39.0,Desconocida
2,Marina,39.0,Jujuy
3,Carlos,18.0,Desconocida
4,Pedro,32.25,Mendoza
5,Luis,33.0,Chaco


In [7]:
#Eliminamos los valores faltantes
df_sin_nan= df.dropna()
df_sin_nan

Unnamed: 0,Nombre,Edad,Ciudad
2,Marina,39.0,Jujuy
5,Luis,33.0,Chaco


In [8]:
#reemplazar valores de columnas con errores
df_remplazado = df.replace(
    {
        'Ciudad': {None: 'sin datos'},
        
    }
)
df_remplazado

Unnamed: 0,Nombre,Edad,Ciudad
0,Blas,,Tucuman
1,Bruno,39.0,sin datos
2,Marina,39.0,Jujuy
3,Carlos,18.0,sin datos
4,Pedro,,Mendoza
5,Luis,33.0,Chaco


Duplicados

In [12]:
data_duplicados = {
    'Nombre':['Blas','Bruno','Marina','Carlos','Pedro','Luis','Blas','Marina'],
    'Edad' :[4,39,39,18,36,33,4,39],
    'Ciudad':['Tucuman','Cordoba','Jujuy','Salta','Mendoza','Chaco','Tucuman','Jujuy']
}          


In [13]:
df_dupl = pd.DataFrame(data_duplicados)   #DF con 2 duplicados
df_dupl

Unnamed: 0,Nombre,Edad,Ciudad
0,Blas,4,Tucuman
1,Bruno,39,Cordoba
2,Marina,39,Jujuy
3,Carlos,18,Salta
4,Pedro,36,Mendoza
5,Luis,33,Chaco
6,Blas,4,Tucuman
7,Marina,39,Jujuy


In [14]:
df_sin_dupl = df_dupl.drop_duplicates() #eliminamos los duplicados
df_sin_dupl

Unnamed: 0,Nombre,Edad,Ciudad
0,Blas,4,Tucuman
1,Bruno,39,Cordoba
2,Marina,39,Jujuy
3,Carlos,18,Salta
4,Pedro,36,Mendoza
5,Luis,33,Chaco


Agrupar datos

In [29]:
data_puntaje = {
    'Nombre':['Blas','Bruno','Marina','Carlos','Pedro','Luis'],
    'Edad' :[4,39,39,18,36,33],
    'Ciudad':['Jujuy','Cordoba','Jujuy','Salta','Mendoza','Cordoba'],
    'Puntaje':[75,88,67,55,89,99]

}   
df_puntaje= pd.DataFrame(data_puntaje)
df_puntaje 

Unnamed: 0,Nombre,Edad,Ciudad,Puntaje
0,Blas,4,Jujuy,75
1,Bruno,39,Cordoba,88
2,Marina,39,Jujuy,67
3,Carlos,18,Salta,55
4,Pedro,36,Mendoza,89
5,Luis,33,Cordoba,99


In [16]:
#agrupar los datos por ciudad
grupo= df_puntaje.groupby('Ciudad')   #segmentamos por la ciudad eb donde vive
print(grupo.groups)

{'Cordoba': [1, 5], 'Jujuy': [0, 2], 'Mendoza': [4], 'Salta': [3]}


In [22]:
#suma de las edades y puntaje por ciudad
agrupporedad = grupo.agg(
    {
        'Edad': 'mean',
        'Puntaje' : 'sum'
    }
)
agrupporedad

Unnamed: 0_level_0,Edad,Puntaje
Ciudad,Unnamed: 1_level_1,Unnamed: 2_level_1
Cordoba,36.0,187
Jujuy,21.5,142
Mendoza,36.0,89
Salta,18.0,55


Agrupacion en multiples niveles

In [None]:
#al DF agregamos una nueva clave que llamamos categoria
data_puntaje['Categoria']= ['A','B','A','B','A','B']
df= pd.DataFrame(data_puntaje)
df= df.drop('categoria',axis=1)    #se duplico categoria y la eliminamos
df

Unnamed: 0,Nombre,Edad,Ciudad,Puntaje,Categoria
0,Blas,4,Jujuy,75,A
1,Bruno,39,Cordoba,88,B
2,Marina,39,Jujuy,67,A
3,Carlos,18,Salta,55,B
4,Pedro,36,Mendoza,89,A
5,Luis,33,Cordoba,99,B


In [52]:
#Agrupar por ciudad y por categoria
gruped_multi= df.groupby(['Ciudad', 'Categoria'])
gruped_multi.groups      #categoria al cual pertenece cada ciudad

{('Cordoba', 'B'): [1, 5], ('Jujuy', 'A'): [0, 2], ('Mendoza', 'A'): [4], ('Salta', 'B'): [3]}

In [54]:
# calcular la suma de las edades y puntuacion por ciudad y por categoria
agregar_cond_multip = gruped_multi.agg(
    {
        'Edad' : 'sum',
        'Puntaje': 'mean'
    }
)
agregar_cond_multip

Unnamed: 0_level_0,Unnamed: 1_level_0,Edad,Puntaje
Ciudad,Categoria,Unnamed: 2_level_1,Unnamed: 3_level_1
Cordoba,B,72,93.5
Jujuy,A,43,71.0
Mendoza,A,36,89.0
Salta,B,18,55.0
