## 1. Instalación de Pandas

```python
import pandas as pd
print(pd.__version__)
```

## 2. ¿Qué es Pandas y por qué es esencial para analistas de datos?

- Pandas es una biblioteca de código abierto para la manipulación y análisis de datos en Python. Su nombre proviene de “Panel Data” y fue diseñada para facilitar el trabajo con datos tabulares, similar a una hoja de cálculo o una tabla de base de datos.
- **Estructuras de Datos Principales**:
    - **Series**: Son como una columna de datos, una estructura unidimensional que puede almacenar datos de diferentes tipos.
    - **DataFrames**: Son como una tabla de datos bidimensional, donde cada columna puede almacenar datos de distintos tipos (numéricos, de texto, booleanos, etc.).
- Aplicaciones Comunes de Pandas
    - **Preparación de Datos**:
        - Selección de columnas y filas específicas para analizar.
        - Limpieza de datos eliminando o reemplazando valores nulos y duplicados.
    - **Transformación de Datos**:
        - Cambio de formatos, agrupación de datos, y cálculo de estadísticas agregadas.
        - Filtrado y segmentación de datos según condiciones específicas.
    - **Exploración de Datos**:
        - Análisis preliminar de los datos para entender las distribuciones, valores atípicos y patrones generales.



| Concepto                 | Descripción                                        |
| ------------------------ | -------------------------------------------------- |
| **Pandas**               | Librería para manipular y analizar datos           |
| **Series**               | Estructura unidimensional con índices              |
| **DataFrame**            | Estructura bidimensional tipo tabla                |
| **Funciones clave**      | Lectura, limpieza, transformación, análisis        |
| **Formatos compatibles** | CSV, Excel, JSON, SQL, entre otros                 |
| **Integración**          | Compatible con NumPy, matplotlib, sklearn, Jupyter |


### Documentación oficial
https://pandas.pydata.org/docs/user_guide/index.html

### Estructuras de datos en Pandas 
- <span style="color:darksalmon">Series:</span>  Unidimensional, similar a un array de NumPy o una columna de una tabla.
- <span style="color:darksalmon">DataFrame:</span>  Bidimensional, similar a una tabla en una base de datos o una hoja de cálculo.


Veamos un ejemplo, creando un DataFrame desde un diccionario:

In [1]:
# La librería de pandas su abreviatura es pd
import pandas as pd

# Crear un DataFrame desde un diccionario
data = {'Nombre': ['Ana', 'Luis', 'Carlos'],
        'Edad': [23, 35, 45],
        'Ciudad': ['Madrid', 'Barcelona', 'Sevilla']}

data


{'Nombre': ['Ana', 'Luis', 'Carlos'],
 'Edad': [23, 35, 45],
 'Ciudad': ['Madrid', 'Barcelona', 'Sevilla']}

In [2]:
df = pd.DataFrame(data)
df

Unnamed: 0,Nombre,Edad,Ciudad
0,Ana,23,Madrid
1,Luis,35,Barcelona
2,Carlos,45,Sevilla


#### Relación entre NumPy y Pandas
* Base de Pandas: Pandas está construido sobre NumPy. Los objetos de Pandas (Series y DataFrames) utilizan arrays de NumPy bajo el capó, lo que les da la velocidad y eficiencia que caracteriza a NumPy.

* Compatibilidad: Puedes convertir entre arrays de NumPy y estructuras de Pandas fácilmente. Por ejemplo, si tienes un DataFrame y necesitas realizar cálculos matemáticos avanzados, puedes convertirlo a un array de NumPy.

In [3]:
# Convertir DataFrame a NumPy array
numpy_array = df.to_numpy()
numpy_array

array([['Ana', 23, 'Madrid'],
       ['Luis', 35, 'Barcelona'],
       ['Carlos', 45, 'Sevilla']], dtype=object)

In [4]:
# Convertir NumPy array a DataFrame
df = pd.DataFrame(numpy_array)
df

Unnamed: 0,0,1,2
0,Ana,23,Madrid
1,Luis,35,Barcelona
2,Carlos,45,Sevilla
