# **Fundamentos para el Análisis de Datos**
El objetivo de este primer capítulo es introducir algunos términos y conceptos generales de estadística, ciencia de datos y análisis de datos, que nos serán de utilidad para la realización del proyecto.

># `Estadística, ciencia de datos y análisis de datos`
### **Analisis de datos**
El análisis de datos es el proceso de examinar, limpiar, transformar y utilizar los datos para extraer información útil y apoyar la toma de decisiones en una organización. El objetivo principal del análisis de datos es identificar patrones y tendencias en los datos, y comunicar los resultados de manera efectiva.
### **Cienia de datos**
La ciencia de datos es un campo interdisciplinario que utiliza técnicas de análisis de datos, estadística y aprendizaje automático para extraer conocimientos y crear modelos predictivos a partir de grandes conjuntos de datos.
### **Estadistica**
Es una rama de las matemáticas que se encarga de la recolección, análisis, interpretación y presentación de datos. La estadística se utiliza para describir y entender fenómenos a través de datos cuantitativos, y se divide en dos áreas principales: la estadística descriptiva, que resume y presenta los datos, y la estadística inferencial, que permite hacer conclusiones y predicciones sobre una población a partir de una muestra.

># ` Python`
El lenguaje de programación elegido para este curso es Python.
Python es un lenguaje de programación de alto nivel, interpretado y de propósito general. características claves de Python:
1. **Sintaxis clara y legible:** Python está diseñado para ser fácil de leer y escribir, lo que lo hace accesible tanto para principiantes como para programadores experimentados. La sintaxis sencilla promueve un código limpio y mantenible.
2. **Multipropósito:** Python se puede utilizar en una amplia variedad de aplicaciones, incluyendo desarrollo web, automatización de tareas, análisis de datos, inteligencia artificial.
3. **Comunidad y ecosistema:** Python cuenta con una extensa comunidad de desarrolladores que contribuyen a su crecimiento, ofreciendo numerosos paquetes y bibliotecas (como NumPy, pandas, Matplotlib.) que facilitan tareas específicas y aumentan la funcionalidad del lenguaje.
4. **Interactividad:** Python permite la programación interactiva, lo que significa que puedes escribir y ejecutar código en tiempo real, facilitando el aprendizaje y la experimentación.
5. **Portabilidad:** Python es compatible con múltiples plataformas, lo que significa que puedes ejecutar el mismo código en diferentes sistemas operativos (Windows, macOS, Linux) sin necesidad de modificaciones.
6. **Orientación a objetos:** Python soporta la programación orientada a objetos, permitiendo a los desarrolladores crear y gestionar objetos y clases, lo que favorece la reutilización del código y la creación de programas más organizados.

># ` Librerias`
* **Pandas:** Para la manipulación y análisis de datos.
* **Numpy:** Para la manipulación y análisis de datos.
* **Matplotlib:** Para la visualización de datos.
* **scipy y statsmodels:** Para cálculos estadísticos.

> <img src="https://pbs.twimg.com/media/EPU5HNAX4AAdl0Q.jpg:large" alt="Texto alternativo" width="500" height="300">

># `Análisis exploratorio de datos`
¡Para poder empezar a analizar datos, lo primero que hay que tener es... datos! Estos datos pueden provenir de diversas fuentes, como:
* Experimentos
* Simulaciones
* Encuestas
* Observaciones
* Búsquedas en bases de datos

> Rara vez los datos se presentan de forma inmaculada y listos para usar. Generalmente, es necesario:
* Limpiarlos
* Procesarlos
* Combinarlos con datos de otras fuentes

> Para sorpresa (y frustración, sobre todo frustración) de quienes se inician en el análisis de datos, esta etapa suele ser la que más tiempo involucra. En este curso, veremos algunos rudimentos básicos de cómo llevar a cabo estas tareas.

> Suponiendo que ya tenemos nuestros datos, lo recomendable es ganar intuición sobre ellos. Debemos intentar comprender qué nos dicen sobre nuestro problema, si es que dicen algo.

> Para ello, se han desarrollado una colección de métricas y métodos colectivamente llamados Análisis Exploratorio de Datos (EDA). Esta metodología se compone básicamente de dos herramientas complementarias:
1. La estadística descriptiva:
La estadística descriptiva es una rama de la estadística que se encarga de resumir y describir las características de un conjunto de datos. A través de diversas medidas, se busca ofrecer una visión clara y concisa de lo que los datos representan.
2. La visualización de datos:
es el proceso de representar información y datos de forma gráfica para facilitar su comprensión y análisis. A través de diversas técnicas y herramientas, se crean representaciones visuales que permiten identificar patrones, tendencias y relaciones en los datos.

># `Tipos de variables: Métricas, ordinales y categóricas`
Tanto en análisis de datos como en programación se habla de variables, aunque el significado no es exactamente el mismo. En estadística una variable es simplemente una cantidad que puede tomar más de un valor. Algunas de sus clasificaciones son:
>> **Continuas:** Son variables que pueden tomar cualquier valor dentro de un rango determinado. Estas variables pueden incluir fracciones y decimales. Ejemplos:
>* La altura de una persona (puede ser 170.5 cm, 170.75 cm, etc.)
>* La temperatura (puede ser 22.3°C, 22.4°C, etc.)

>>**Discretas:** Son variables que solo pueden tomar valores enteros específicos y no pueden ser fraccionadas. Estas variables suelen representar conteos.
>* El número de hijos en una familia (no se puede tener 2.5 hijos)
>* El número de coches en un estacionamiento.

> En Python, como en otros lenguajes de programación, se le llama variable a un espacio en la memoria de la computadora que almacena un valor determinado y que tiene asociado un identificador o nombre. Existen distintos "tipos" de variable, en Python los tipos más comunes
son:
* **int:** corresponde a los números enteros. Por ejemplo 42, 1, -4.
* **float:** son una aproximación de los números reales por ejemplo 3.14, 1.0, -0.124.
* **string:** corresponde a letras o cadenas de letras y se escriben usando comillas dobles "" o simples ''. Por ejemplo 'hola', '42', 's'.
* **bool:** corresponde a datos booleanos, es decir, que sólo hay dos valores posibles True y False.

> Los nombres de las variables en Python siguen ciertas reglas que es necesario respetar.
* Deben comenzar con letras o con un _
* Las letras pueden corresponderse con los caracteres a-z, A-Z
* También podemos usar números 0-9 (solo que no como primer carácter).

> Para saber el tipo de una variable en Python podemos usar la función ``type()``:
```python
>>> type(42)
<class 'int'>
```

># `Aplicación y notas en Python`
Puedes ver los tipos de datos con dtypes
* Datos categóricos: ordinales (object) y nominales (bool)
* Datos numéricos: discretos (int64) y continuos (float64)

> Importamos el dataframe
```python
import pandas as pd
df = pd.read_csv('cars.csv')
```
Identificamos los tipos de datos de nuestro dataframe:
```python
df.dtypes
```
Generamos un conjunto completo de estadísticos descriptivos (fundamentales):
```python
df.describe()
```