# 📊 Análisis Básico de Datos en Python

## 🎯 Objetivo de la Clase
- Aprender a manipular y analizar datos tabulares en Python utilizando **pandas**.
- Explorar datos con funciones clave para obtener información útil.

In [None]:
import pandas as pd
import numpy as np

## 1️⃣ Carga de Datos en Pandas

In [None]:
# Crear un DataFrame de ejemplo con más datos
data = {'Nombre': ['Ana', 'Carlos','Ana', 'David', 'Elena', 'Fernando', 'Gabriela', 'Hugo', 'Isabel', 'Juan', 'Karen'],
        'Edad': [25, 30,25, 35, 40, 45, 50, 55, 29, 33, 41],
        'Salario': [2000, 3500,2000, 4000, 2500, 5000, 6000, 7000, 3000, 4100, 5400],
        'Departamento': ['Ventas', 'TI','Ventas', 'TI', 'Marketing', 'Ventas', 'RRHH', 'Ventas', 'TI', 'Marketing', 'RRHH'],
        'Años_Experiencia': [1, 5,1, 7, 2, 10, 15, 20, 3, 8, 12]}

df = pd.DataFrame(data)
df

Unnamed: 0,Nombre,Edad,Salario,Departamento,Años_Experiencia
0,Ana,25,2000,Ventas,1
1,Carlos,30,3500,TI,5
2,Ana,25,2000,Ventas,1
3,David,35,4000,TI,7
4,Elena,40,2500,Marketing,2
5,Fernando,45,5000,Ventas,10
6,Gabriela,50,6000,RRHH,15
7,Hugo,55,7000,Ventas,20
8,Isabel,29,3000,TI,3
9,Juan,33,4100,Marketing,8


In [None]:
type(df)

## 2️⃣ Inspección General de los Datos

In [None]:
df.shape

(11, 5)

In [None]:
# Mostrar las primeras filas
df.head(2)

Unnamed: 0,Nombre,Edad,Salario,Departamento,Años_Experiencia
0,Ana,25,2000,Ventas,1
1,Carlos,30,3500,TI,5


In [None]:
# Mostrar las primeras filas y últimas filas
df.tail(3)

Unnamed: 0,Nombre,Edad,Salario,Departamento,Años_Experiencia
8,Isabel,29,3000,TI,3
9,Juan,33,4100,Marketing,8
10,Karen,41,5400,RRHH,12


In [None]:
# Información sobre el DataFrame
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 11 entries, 0 to 10
Data columns (total 5 columns):
 #   Column            Non-Null Count  Dtype 
---  ------            --------------  ----- 
 0   Nombre            11 non-null     object
 1   Edad              11 non-null     int64 
 2   Salario           11 non-null     int64 
 3   Departamento      11 non-null     object
 4   Años_Experiencia  11 non-null     int64 
dtypes: int64(3), object(2)
memory usage: 572.0+ bytes


In [None]:
# Resumen estadístico detallado
df.describe()

Unnamed: 0,Edad,Salario,Años_Experiencia
count,11.0,11.0,11.0
mean,37.090909,4045.454545,7.636364
std,10.014535,1656.721845,6.168837
min,25.0,2000.0,1.0
25%,29.5,2750.0,2.5
50%,35.0,4000.0,7.0
75%,43.0,5200.0,11.0
max,55.0,7000.0,20.0


## 3️⃣ Selección de Columnas

In [None]:
df["Nombre"]

Unnamed: 0,Nombre
0,Ana
1,Carlos
2,Ana
3,David
4,Elena
5,Fernando
6,Gabriela
7,Hugo
8,Isabel
9,Juan


In [None]:
# Seleccionar una sola columna
col_name = df['Nombre']

In [None]:
col_name

Unnamed: 0,Nombre
0,Ana
1,Carlos
2,Ana
3,David
4,Elena
5,Fernando
6,Gabriela
7,Hugo
8,Isabel
9,Juan


In [None]:
# Seleccionar múltiples columnas
df[['Nombre', 'Salario', "Edad"]]

Unnamed: 0,Nombre,Salario,Edad
0,Ana,2000,25
1,Carlos,3500,30
2,Ana,2000,25
3,David,4000,35
4,Elena,2500,40
5,Fernando,5000,45
6,Gabriela,6000,50
7,Hugo,7000,55
8,Isabel,3000,29
9,Juan,4100,33


In [None]:
# Seleccionar usando loc
df.loc[:3, ['Edad', 'Salario']]

Unnamed: 0,Edad,Salario
0,25,2000
1,30,3500
2,25,2000
3,35,4000


In [None]:
# Seleccionar usando iloc (posición de columna)
df.iloc[:5, 1:3
        ]

Unnamed: 0,Edad,Salario
0,25,2000
1,30,3500
2,25,2000
3,35,4000
4,40,2500


## 4️⃣ Filtrado de Datos

In [None]:
# Filtrar empleados con salario mayor a 4000
df[df['Salario'] > 4000]

Unnamed: 0,Nombre,Edad,Salario,Departamento,Años_Experiencia
5,Fernando,45,5000,Ventas,10
6,Gabriela,50,6000,RRHH,15
7,Hugo,55,7000,Ventas,20
9,Juan,33,4100,Marketing,8
10,Karen,41,5400,RRHH,12


In [None]:
# Filtrar empleados de TI con más de 5 años de experiencia
df[(df['Departamento'] == 'TI') | (df['Años_Experiencia'] > 5)]

Unnamed: 0,Nombre,Edad,Salario,Departamento,Años_Experiencia
1,Carlos,30,3500,TI,5
3,David,35,4000,TI,7
5,Fernando,45,5000,Ventas,10
6,Gabriela,50,6000,RRHH,15
7,Hugo,55,7000,Ventas,20
8,Isabel,29,3000,TI,3
9,Juan,33,4100,Marketing,8
10,Karen,41,5400,RRHH,12


In [None]:
# Filtrar empleados de Marketing o RRHH
df[df['Departamento'].isin(['Marketing', 'RRHH'])]

Unnamed: 0,Nombre,Edad,Salario,Departamento,Años_Experiencia
3,Elena,40,2500,Marketing,2
5,Gabriela,50,6000,RRHH,15
8,Juan,33,4100,Marketing,8
9,Karen,41,5400,RRHH,12


## 5️⃣ Agrupación y Estadísticas Básicas

###5.0 Agrupaciones 1 Variable

In [None]:
# Indicadores por variable
df['Salario'].mean()

4045.4545454545455

In [None]:
# Indicadores por variable
df['Salario'].max()

7000

In [None]:
# Indicadores por variable
df['Salario'].min()

2000

In [None]:
# Indicadores por variable
df['Salario'].sum()

44500

In [None]:
df["Salario"].quantile(0.5)

4000.0

###5.1 Frecuencia, Agrupaciones de variables categoricas

In [None]:
df['Departamento'].value_counts()

Unnamed: 0_level_0,count
Departamento,Unnamed: 1_level_1
Ventas,4
TI,3
Marketing,2
RRHH,2


### 5.2 Group By

In [None]:
# Agrupar por departamento y calcular la media salarial
df[df['Salario']==df['Salario'].max()]["Nombre"]

Unnamed: 0,Nombre
7,Hugo


In [None]:
df['Salario'].max()

7000

In [None]:
df_filtrado = df[["Nombre", "Edad","Salario"]]

In [None]:
df_mayores = df_filtrado[df_filtrado["Edad"]>25]

In [None]:
df_mayores

Unnamed: 0,Nombre,Edad,Salario
1,Carlos,30,3500
3,David,35,4000
4,Elena,40,2500
5,Fernando,45,5000
6,Gabriela,50,6000
7,Hugo,55,7000
8,Isabel,29,3000
9,Juan,33,4100
10,Karen,41,5400


In [None]:
tabla =

In [None]:
tabla["Nombre"]

Unnamed: 0,Nombre
7,Hugo


In [None]:
# Agrupar por departamento y contar empleados
df.groupby('Departamento')['Nombre'].count()

Unnamed: 0_level_0,Nombre
Departamento,Unnamed: 1_level_1
Marketing,2
RRHH,2
TI,3
Ventas,4


## 6️⃣ Ordenamiento de Datos

In [None]:
# Ordenar por salario de    mayor a menor
df.sort_values(by='Salario', ascending=False)

Unnamed: 0,Nombre,Edad,Salario,Departamento,Años_Experiencia
7,Hugo,55,7000,Ventas,20
6,Gabriela,50,6000,RRHH,15
10,Karen,41,5400,RRHH,12
5,Fernando,45,5000,Ventas,10
9,Juan,33,4100,Marketing,8
3,David,35,4000,TI,7
1,Carlos,30,3500,TI,5
8,Isabel,29,3000,TI,3
4,Elena,40,2500,Marketing,2
0,Ana,25,2000,Ventas,1


In [None]:
# Ordenar por años de experiencia y luego por salario
df.sort_values(by=['Años_Experiencia', 'Salario'], ascending=[False, True])

Unnamed: 0,Nombre,Edad,Salario,Departamento,Años_Experiencia
6,Hugo,55,7000,Ventas,20
5,Gabriela,50,6000,RRHH,15
9,Karen,41,5400,RRHH,12
4,Fernando,45,5000,Ventas,10
8,Juan,33,4100,Marketing,8
2,David,35,4000,TI,7
1,Carlos,30,3500,TI,5
7,Isabel,29,3000,TI,3
3,Elena,40,2500,Marketing,2
0,Ana,25,2000,Ventas,1


## 7️⃣ Creación de Nuevas Columnas

In [None]:
df.head()

Unnamed: 0,Nombre,Edad,Salario,Departamento,Años_Experiencia
0,Ana,25,2000,Ventas,1
1,Carlos,30,3500,TI,5
2,Ana,25,2000,Ventas,1
3,David,35,4000,TI,7
4,Elena,40,2500,Marketing,2


In [None]:
# Crear una nueva columna con el salario anual
df['Salario_Anual'] = df['Salario'] * 12


In [None]:
df.head()

Unnamed: 0,Nombre,Edad,Salario,Departamento,Años_Experiencia,Salario_Anual
0,Ana,25,2000,Ventas,1,24000
1,Carlos,30,3500,TI,5,42000
2,Ana,25,2000,Ventas,1,24000
3,David,35,4000,TI,7,48000
4,Elena,40,2500,Marketing,2,30000


In [None]:

# Crear una nueva columna indicando si tiene más de 5 años de experiencia
df["Numero"] = 2
df.loc[:3,"Numero"] = 5
df

Unnamed: 0,Nombre,Edad,Salario,Departamento,Años_Experiencia,Salario_Anual,Numero
0,Ana,25,2000,Ventas,1,24000,5
1,Carlos,30,3500,TI,5,42000,5
2,Ana,25,2000,Ventas,1,24000,5
3,David,35,4000,TI,7,48000,5
4,Elena,40,2500,Marketing,2,30000,2
5,Fernando,45,5000,Ventas,10,60000,2
6,Gabriela,50,6000,RRHH,15,72000,2
7,Hugo,55,7000,Ventas,20,84000,2
8,Isabel,29,3000,TI,3,36000,2
9,Juan,33,4100,Marketing,8,49200,2


##DROP

In [None]:
df.head()

Unnamed: 0,Nombre,Edad,Salario,Departamento,Años_Experiencia,Salario_Anual,Experiencia_Alta,Numero
0,Ana,25,2000,Ventas,1,24000,False,2
1,Carlos,30,3500,TI,5,42000,False,2
2,Ana,25,2000,Ventas,1,24000,False,2
3,David,35,4000,TI,7,48000,True,2
4,Elena,40,2500,Marketing,2,30000,False,12


In [None]:
df_clean = df.drop(columns=['Numero'], axis=1)

In [None]:
df_clean.head()

Unnamed: 0,Nombre,Edad,Salario,Departamento,Años_Experiencia,Salario_Anual,Experiencia_Alta
0,Ana,25,2000,Ventas,1,24000,False
1,Carlos,30,3500,TI,5,42000,False
2,Ana,25,2000,Ventas,1,24000,False
3,David,35,4000,TI,7,48000,True
4,Elena,40,2500,Marketing,2,30000,False


## 8️⃣ Eliminación de Valores Duplicados

In [None]:
# Verificar si hay duplicados
df.duplicated().sum()

1

In [None]:

# Eliminar duplicados si existen
df.drop_duplicates(inplace=True)
df

Unnamed: 0,Nombre,Edad,Salario,Departamento,Años_Experiencia,Salario_Anual,Experiencia_Alta,Numero
0,Ana,25,2000,Ventas,1,24000,False,2.0
1,Carlos,30,3500,TI,5,42000,False,2.0
3,David,35,4000,TI,7,48000,True,2.0
4,Elena,40,2500,Marketing,2,30000,False,
5,Fernando,45,5000,Ventas,10,60000,True,
6,Gabriela,50,6000,RRHH,15,72000,True,
7,Hugo,55,7000,Ventas,20,84000,True,
8,Isabel,29,3000,TI,3,36000,False,
9,Juan,33,4100,Marketing,8,49200,True,
10,Karen,41,5400,RRHH,12,64800,True,


## 9️⃣ Manejo de Valores Nulos

In [None]:
# Introducir valores nulos para ejemplo
df.loc[2, 'Salario'] = np.nan
df.loc[5, 'Edad'] = np.nan

In [None]:
df.head()

Unnamed: 0,Nombre,Edad,Salario,Departamento,Años_Experiencia,Salario_Anual,Experiencia_Alta,Numero
0,Ana,25.0,2000.0,Ventas,1.0,24000.0,False,2.0
1,Carlos,30.0,3500.0,TI,5.0,42000.0,False,2.0
3,David,35.0,4000.0,TI,7.0,48000.0,True,2.0
4,Elena,40.0,2500.0,Marketing,2.0,30000.0,False,
5,Fernando,,5000.0,Ventas,10.0,60000.0,True,


In [None]:
# Verificar valores nulos
df.isnull().sum()



Unnamed: 0,0
Nombre,1
Edad,2
Salario,1
Departamento,1
Años_Experiencia,1
Salario_Anual,1
Experiencia_Alta,1
Numero,8


In [None]:
df.head()

Unnamed: 0,Nombre,Edad,Salario,Departamento,Años_Experiencia,Salario_Anual,Experiencia_Alta,Numero
0,Ana,25.0,2000.0,Ventas,1.0,24000.0,False,2.0
1,Carlos,30.0,3500.0,TI,5.0,42000.0,False,2.0
3,David,35.0,4000.0,TI,7.0,48000.0,True,2.0
4,Elena,40.0,2500.0,Marketing,2.0,30000.0,False,
5,Fernando,,5000.0,Ventas,10.0,60000.0,True,


In [None]:
# Rellenar valores nulos con la media de la columna
df['Edad'].fillna(df['Edad'].mean().round(0), inplace=True)
df

The behavior will change in pandas 3.0. This inplace method will never work because the intermediate object on which we are setting values always behaves as a copy.

For example, when doing 'df[col].method(value, inplace=True)', try using 'df.method({col: value}, inplace=True)' or df[col] = df[col].method(value) instead, to perform the operation inplace on the original object.


  df['Edad'].fillna(df['Edad'].mean().round(0), inplace=True)


Unnamed: 0,Nombre,Edad,Salario,Departamento,Años_Experiencia,Salario_Anual,Experiencia_Alta,Numero
0,Ana,25.0,2000.0,Ventas,1.0,24000.0,False,2.0
1,Carlos,30.0,3500.0,TI,5.0,42000.0,False,2.0
3,David,35.0,4000.0,TI,7.0,48000.0,True,2.0
4,Elena,40.0,2500.0,Marketing,2.0,30000.0,False,
5,Fernando,38.0,5000.0,Ventas,10.0,60000.0,True,
6,Gabriela,50.0,6000.0,RRHH,15.0,72000.0,True,
7,Hugo,55.0,7000.0,Ventas,20.0,84000.0,True,
8,Isabel,29.0,3000.0,TI,3.0,36000.0,False,
9,Juan,33.0,4100.0,Marketing,8.0,49200.0,True,
10,Karen,41.0,5400.0,RRHH,12.0,64800.0,True,


## 🔟 Aplicación de Funciones Personalizadas

In [None]:
# Crear una función para clasificar empleados según experiencia
def clasificar_experiencia(anios):
    if anios < 3:
        return 'Junior'
    elif anios < 10:
        return 'Mid-Level'
    else:
        return 'Senior'

df['Nivel_Experiencia'] = df['Años_Experiencia'].apply(clasificar_experiencia)
df

Unnamed: 0,Nombre,Edad,Salario,Departamento,Años_Experiencia,Salario_Anual,Experiencia_Alta,Numero,Nivel_Experiencia
0,Ana,25.0,2000.0,Ventas,1.0,24000.0,False,2.0,Junior
1,Carlos,30.0,3500.0,TI,5.0,42000.0,False,2.0,Mid-Level
3,David,35.0,4000.0,TI,7.0,48000.0,True,2.0,Mid-Level
4,Elena,40.0,2500.0,Marketing,2.0,30000.0,False,,Junior
5,Fernando,38.0,5000.0,Ventas,10.0,60000.0,True,,Senior
6,Gabriela,50.0,6000.0,RRHH,15.0,72000.0,True,,Senior
7,Hugo,55.0,7000.0,Ventas,20.0,84000.0,True,,Senior
8,Isabel,29.0,3000.0,TI,3.0,36000.0,False,,Mid-Level
9,Juan,33.0,4100.0,Marketing,8.0,49200.0,True,,Mid-Level
10,Karen,41.0,5400.0,RRHH,12.0,64800.0,True,,Senior


## 📌 Conclusiones
- `describe()`, `info()`, y `head()` permiten inspeccionar los datos.
- `groupby()` y `value_counts()` generan estadísticas útiles.
- `apply()` nos permite crear funciones personalizadas para modificar los datos.
- `pivot_table()` y `crosstab()` ayudan a analizar mejor los datos.