### Análisis de datos con Pandas

En esta sección, nos enfocaremos en el proceso de **análisis de datos** usando Pandas. Aprenderemos cómo importar datos, realizar un análisis exploratorio básico, transformar y limpiar los datos para dejarlos listos para su análisis posterior.


#### **1. Importación de datos**

Uno de los primeros pasos en cualquier análisis de datos es la **importación** de los datos. Pandas tiene múltiples funciones para leer datos de diferentes formatos como **CSV, Excel, JSON, HTML**, entre otros.

##### a. Creación de un archivo CSV de ejemplo

Puedes crear un archivo CSV en tu entorno local para practicar:

In [54]:
# Crear un DataFrame de ejemplo y exportarlo como CSV
import pandas as pd

data = {
    'Nombre': ['Ana', 'Luis', 'María', 'Carlos'],
    'Edad': [23, 35, 29, 42],
    'Ciudad': ['Montevideo', 'Buenos Aires', 'Santiago', 'Lima'],
    'Salario': [30000, 45000, 40000, 38000]
}

df = pd.DataFrame(data)
df.to_csv('empleados.csv', index=False)

##### b. Importar un archivo CSV

Ahora que tienes el archivo `empleados.csv`, puedes importarlo de la siguiente manera:

In [55]:
# Leer un archivo CSV
df_empleados = pd.read_csv('empleados.csv')
df_empleados.head()

Unnamed: 0,Nombre,Edad,Ciudad,Salario
0,Ana,23,Montevideo,30000
1,Luis,35,Buenos Aires,45000
2,María,29,Santiago,40000
3,Carlos,42,Lima,38000


##### c. Importar datos desde una URL

También puedes importar un archivo CSV alojado en la web. A continuación te dejo un ejemplo usando una URL pública:

In [56]:
# Importar datos desde una URL
url = 'https://people.sc.fsu.edu/~jburkardt/data/csv/hw_200.csv'
df_from_url = pd.read_csv(url)
df_from_url.head()

Unnamed: 0,Index,"Height(Inches)""","""Weight(Pounds)"""
0,1,65.78,112.99
1,2,71.52,136.49
2,3,69.4,153.03
3,4,68.22,142.34
4,5,67.79,144.3


#### **2. Análisis de datos (Exploratory Data Analysis - EDA)**

Pandas nos proporciona varias funciones útiles para **analizar rápidamente los datos**. Aquí hay algunas operaciones comunes:

- `info()`: Proporciona un resumen del DataFrame.
- `describe()`: Genera estadísticas descriptivas para las columnas numéricas.
- `head()` y `tail()`: Muestra las primeras o últimas filas del DataFrame.

In [57]:
# Obtener información básica sobre el DataFrame
df_empleados.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 4 entries, 0 to 3
Data columns (total 4 columns):
 #   Column   Non-Null Count  Dtype 
---  ------   --------------  ----- 
 0   Nombre   4 non-null      object
 1   Edad     4 non-null      int64 
 2   Ciudad   4 non-null      object
 3   Salario  4 non-null      int64 
dtypes: int64(2), object(2)
memory usage: 260.0+ bytes


In [58]:
# Generar estadísticas descriptivas
df_empleados.describe()

Unnamed: 0,Edad,Salario
count,4.0,4.0
mean,32.25,38250.0
std,8.13941,6238.322424
min,23.0,30000.0
25%,27.5,36000.0
50%,32.0,39000.0
75%,36.75,41250.0
max,42.0,45000.0


In [59]:
# Visualizar las primeras 5 filas
df_empleados.head()

Unnamed: 0,Nombre,Edad,Ciudad,Salario
0,Ana,23,Montevideo,30000
1,Luis,35,Buenos Aires,45000
2,María,29,Santiago,40000
3,Carlos,42,Lima,38000


##### Paquete recomendado para EDA

Además de las funciones nativas de Pandas, existen paquetes como **`sweetviz`** que generan reportes de análisis exploratorio automáticamente.

```bash
pip install sweetviz
```

In [60]:
# Generar reporte con pandas_profiling
import sweetviz as sv

# Generate a report for your dataset
report = sv.analyze(df_empleados)

# Display the report in a browser
report.show_html("sweetviz_report.html")

Done! Use 'show' commands to display/save.   |██████████| [100%]   00:00 -> (00:00 left)


Report sweetviz_report.html was generated! NOTEBOOK/COLAB USERS: the web browser MAY not pop up, regardless, the report IS saved in your notebook/colab files.


#### **3. Transformación de datos**

La transformación de datos implica la modificación de los valores existentes en el DataFrame para extraer información útil o preparar los datos para análisis adicionales.

##### a. Usando funciones `apply`, `map`, y `lambda`

Estas funciones son esenciales para aplicar operaciones personalizadas sobre los datos.

- **`apply()`** se utiliza para aplicar funciones en filas o columnas.
- **`map()`** se usa en Series para transformar valores de acuerdo a un mapeo o función.
- **`lambda`** permite definir funciones rápidas en una sola línea.

In [61]:
# Ejemplo usando apply para realizar operaciones matemáticas
df_empleados['Salario_Anual'] = df_empleados['Salario'].apply(lambda x: x * 12)
df_empleados

Unnamed: 0,Nombre,Edad,Ciudad,Salario,Salario_Anual
0,Ana,23,Montevideo,30000,360000
1,Luis,35,Buenos Aires,45000,540000
2,María,29,Santiago,40000,480000
3,Carlos,42,Lima,38000,456000


In [62]:
ciudad_map = {'Montevideo': 'UY', 'Buenos Aires': 'AR', 'Santiago': 'CL', 'Lima': 'PE'}
df_empleados['Cod_Ciudad'] = df_empleados['Ciudad'].map(ciudad_map)
df_empleados

Unnamed: 0,Nombre,Edad,Ciudad,Salario,Salario_Anual,Cod_Ciudad
0,Ana,23,Montevideo,30000,360000,UY
1,Luis,35,Buenos Aires,45000,540000,AR
2,María,29,Santiago,40000,480000,CL
3,Carlos,42,Lima,38000,456000,PE


##### b. Operaciones aritméticas

Puedes aplicar operaciones directamente sobre las columnas del DataFrame.

In [63]:
# Incrementar el salario en un 10%
df_empleados['Salario_Ajustado'] = df_empleados['Salario'] * 1.1
df_empleados

Unnamed: 0,Nombre,Edad,Ciudad,Salario,Salario_Anual,Cod_Ciudad,Salario_Ajustado
0,Ana,23,Montevideo,30000,360000,UY,33000.0
1,Luis,35,Buenos Aires,45000,540000,AR,49500.0
2,María,29,Santiago,40000,480000,CL,44000.0
3,Carlos,42,Lima,38000,456000,PE,41800.0


##### c. Operaciones sobre strings

Las columnas de tipo string pueden transformarse usando funciones como `str.lower()`, `str.upper()`, o `str.replace()`.


In [64]:
df_empleados['Nombre'] = df_empleados['Nombre'].str.upper()
df_empleados

Unnamed: 0,Nombre,Edad,Ciudad,Salario,Salario_Anual,Cod_Ciudad,Salario_Ajustado
0,ANA,23,Montevideo,30000,360000,UY,33000.0
1,LUIS,35,Buenos Aires,45000,540000,AR,49500.0
2,MARÍA,29,Santiago,40000,480000,CL,44000.0
3,CARLOS,42,Lima,38000,456000,PE,41800.0


#### **4. Limpieza de datos**

Los datos reales suelen tener problemas como valores duplicados, faltantes o inconsistencias. La limpieza de datos es una parte crucial del análisis.

##### a. Eliminación de duplicados

Puedes eliminar filas duplicadas con `drop_duplicates()`.

In [65]:
# Eliminar filas duplicadas (si existieran)
df_empleados.drop_duplicates(inplace=True)
df_empleados

Unnamed: 0,Nombre,Edad,Ciudad,Salario,Salario_Anual,Cod_Ciudad,Salario_Ajustado
0,ANA,23,Montevideo,30000,360000,UY,33000.0
1,LUIS,35,Buenos Aires,45000,540000,AR,49500.0
2,MARÍA,29,Santiago,40000,480000,CL,44000.0
3,CARLOS,42,Lima,38000,456000,PE,41800.0


##### b. Manejo de valores faltantes (missing values)

Los valores faltantes pueden manejarse de varias maneras, como rellenarlos con la media, la mediana o simplemente eliminarlos.

- **`dropna()`**: Elimina filas con valores faltantes.
- **`fillna()`**: Rellena los valores faltantes con un valor determinado.

In [66]:
df_empleados.loc[-1] = ['DAN', None, 'Salinas', 20000, 240000, 'SA', None]
df_empleados.reset_index(inplace=True)
df_empleados

  df_empleados.loc[-1] = ['DAN', None, 'Salinas', 20000, 240000, 'SA', None]


Unnamed: 0,index,Nombre,Edad,Ciudad,Salario,Salario_Anual,Cod_Ciudad,Salario_Ajustado
0,0,ANA,23.0,Montevideo,30000,360000,UY,33000.0
1,1,LUIS,35.0,Buenos Aires,45000,540000,AR,49500.0
2,2,MARÍA,29.0,Santiago,40000,480000,CL,44000.0
3,3,CARLOS,42.0,Lima,38000,456000,PE,41800.0
4,-1,DAN,,Salinas,20000,240000,SA,


In [71]:
# Rellenar valores faltantes con la media
salario_media = df_empleados['Salario_Ajustado'].mean()
df_empleados['Salario_Ajustado'] = df_empleados['Salario_Ajustado'].fillna(salario_media)
df_empleados

Unnamed: 0,index,Nombre,Edad,Ciudad,Salario,Salario_Anual,Cod_Ciudad,Salario_Ajustado
0,0,ANA,23.0,Montevideo,30000,360000,UY,33000.0
1,1,LUIS,35.0,Buenos Aires,45000,540000,AR,49500.0
2,2,MARÍA,29.0,Santiago,40000,480000,CL,44000.0
3,3,CARLOS,42.0,Lima,38000,456000,PE,41800.0
4,-1,DAN,,Salinas,20000,240000,SA,42075.0


In [74]:
df_empleados.dropna(inplace=True)
df_empleados

Unnamed: 0,index,Nombre,Edad,Ciudad,Salario,Salario_Anual,Cod_Ciudad,Salario_Ajustado
0,0,ANA,23,Montevideo,30000,360000,UY,33000.0
1,1,LUIS,35,Buenos Aires,45000,540000,AR,49500.0
2,2,MARÍA,29,Santiago,40000,480000,CL,44000.0
3,3,CARLOS,42,Lima,38000,456000,PE,41800.0
