## 📊 Introducción a la librería Pandas

Pandas es una de las bibliotecas más populares de Python para el análisis y manipulación de datos. Su nombre proviene de **"Panel Data", un término económico para describir conjuntos de datos estructurados**. Fue desarrollada inicialmente por Wes McKinney en 2008 y desde entonces se ha convertido en una herramienta fundamental en ciencia de datos, análisis financiero, ingeniería y más.

Pandas proporciona dos estructuras de datos principales:

- Series: una estructura unidimensional similar a un array o lista, pero con etiquetas.
- DataFrame: una estructura bidimensional (tabla) con filas y columnas etiquetadas, similar a una hoja de cálculo o tabla SQL.

Gracias a su diseño eficiente y flexible, Pandas permite:
- Leer y escribir datos desde múltiples fuentes (CSV, Excel, SQL, JSON, etc.).
- Limpiar, transformar y combinar datos fácilmente.
- Realizar estadísticas descriptivas y operaciones de agrupamiento.
- Visualizar datos en combinación con bibliotecas como Matplotlib o Seaborn.

En resumen, **Pandas es una herramienta esencial para trabajar con datos estructurados en Python**, permitiendo desde tareas básicas hasta análisis avanzados con pocas líneas de código.

### Instalación e Importe

- Para realizar su instalación, se puede usar el comando `conda list pandas` o con el comando `pip install pandas`.
- Para importar la biblioteca, se puede utilizar `import pandas as pd`

Al importar pandas, se dará una referencia al objeto pandas para trabajar a lo largo del documento.

In [None]:
pip install "numpy<2.0"

In [1]:
pip install pandas

Note: you may need to restart the kernel to use updated packages.


In [2]:
import pandas as pd

## 1.0 Series

### 🔹 ¿Qué es una Series en Pandas?

Una Series es el objeto básico de Pandas para representar estructuras de datos unidimensionales. Podría verse como un array mejorado que incluye etiquetas (índices) asociadas a cada dato, lo que permite acceder y manipular los elementos de forma más flexible y expresiva. A nivel conceptual, una Series se puede imaginar como una composición de dos arrays relacionados:

- Un array de datos (por ejemplo, números, strings, valores booleanos, etc.).
- Un array de índices que etiqueta cada dato individualmente.

Esta combinación permite que cada elemento pueda ser identificado no solo por su posición, sino también por su etiqueta personalizada, lo que facilita el análisis y el acceso a los datos.

In [21]:
list_of_pairs = [2,4,6,8,10,12]
series1 = pd.Series(list_of_pairs)
series1

0     2
1     4
2     6
3     8
4    10
5    12
dtype: int64

In [22]:
len(list_of_pairs)

6

In [23]:
len(series1)

6

In [24]:
expanded_list_of_pairs = [2,4,6,8,10,12,14,16,18,20]
indexes = ['a', 'b', 'c', 'd', 'e', 'f','g','h','i','j']
series2 = pd.Series(expanded_list_of_pairs, indexes)

In [25]:
series2

a     2
b     4
c     6
d     8
e    10
f    12
g    14
h    16
i    18
j    20
dtype: int64

In [26]:
series_2_1 = pd.Series(indexes, expanded_list_of_pairs)
series_2_1

2     a
4     b
6     c
8     d
10    e
12    f
14    g
16    h
18    i
20    j
dtype: object

### ¿ Qué pasa si la longitud de los 2 arrays no son los mismos?

In [27]:
new_indexes = ['a', 'b', 'c', 'd', 'e']
series2 = pd.Series(expanded_list_of_pairs, new_indexes)

ValueError: Length of values (10) does not match length of index (5)

<div class="alert alert-block alert-info">
    Nota:>La longitud de los arrays o listas a asociar deben tener la misma longitud.”.
</div>

In [28]:
mixed_list = [1,"dos", True, 4.0, "cinco", False, 6, True, "Ocho" ]
indexes = ['primero', 'segundo', 'tercero', 'cuarto', 'quinto', 'sexto', 'septimo', 'octavo', 'noveno']
series3 = pd.Series(mixed_list, indexes)
series3

primero        1
segundo      dos
tercero     True
cuarto       4.0
quinto     cinco
sexto      False
septimo        6
octavo      True
noveno      Ocho
dtype: object

In [29]:
series3.index

Index(['primero', 'segundo', 'tercero', 'cuarto', 'quinto', 'sexto', 'septimo',
       'octavo', 'noveno'],
      dtype='object')

In [30]:
series3.values

array([1, 'dos', True, 4.0, 'cinco', False, 6, True, 'Ocho'], dtype=object)

### Para acceder a un valor podemos utilizar el nombre de la etiqueta o la posición en la que se encuentre

In [31]:
series4 = pd.Series(["una", "cadena","literal","de","texto"], index=['a','b','c','d','e'])
series4

a        una
b     cadena
c    literal
d         de
e      texto
dtype: object

In [41]:
# DEPRECATED:
# series4[0]
series4.iloc[0]

'una'

In [42]:
series4.iloc[2]

'literal'

In [43]:
series4.iloc[0:3]

a        una
b     cadena
c    literal
dtype: object

In [45]:
## se le pueden asignar valores a las posiciones de una serie
series4.iloc[1] = "secuencia de caracteres"

In [46]:
series4

a                        una
b    secuencia de caracteres
c                    literal
d                         de
e                      texto
dtype: object

In [47]:
series4['e'] = "Texto en español"

In [48]:
series4

a                        una
b    secuencia de caracteres
c                    literal
d                         de
e           Texto en español
dtype: object

### Uso de arrays con series

Los valores que tiene una Serie a partir de un arreglo no son copiados sino pasados por referencia, es decir que si en la serie se modifican, el arreglo tambien cambiara su valor

In [49]:
import numpy as np

In [50]:
current_array = np.array([10,20,40,80,160,320,640])

In [51]:
current_array

array([ 10,  20,  40,  80, 160, 320, 640])

In [52]:
type(current_array)

numpy.ndarray

In [53]:
series_with_array = pd.Series(current_array)

In [54]:
series_with_array

0     10
1     20
2     40
3     80
4    160
5    320
6    640
dtype: int32

In [55]:
series_with_array.iloc[4] = 200
series_with_array

0     10
1     20
2     40
3     80
4    200
5    320
6    640
dtype: int32

In [56]:
current_array

array([ 10,  20,  40,  80, 200, 320, 640])

In [57]:
series_with_array

0     10
1     20
2     40
3     80
4    200
5    320
6    640
dtype: int32

### Operaciones con Series

In [60]:
series = series_with_array

In [61]:
series[series >= 70]

3     80
4    200
5    320
6    640
dtype: int32

In [62]:
series[series <= 500]

0     10
1     20
2     40
3     80
4    200
5    320
dtype: int32

**Filtros con múltiples condiciones se deben de colocar entre parentesis**.

In [63]:
series[(series >= 70) & (series <= 500)] # & -> and  | -> or

3     80
4    200
5    320
dtype: int32

In [64]:
series[(series >= 70) | (series <= 500)]

0     10
1     20
2     40
3     80
4    200
5    320
6    640
dtype: int32

In [65]:
series * 5

0      50
1     100
2     200
3     400
4    1000
5    1600
6    3200
dtype: int32

In [66]:
series

0     10
1     20
2     40
3     80
4    200
5    320
6    640
dtype: int32

In [67]:
series/2

0      5.0
1     10.0
2     20.0
3     40.0
4    100.0
5    160.0
6    320.0
dtype: float64

In [68]:
series2 = pd.Series([7,8,9,4,7,9,2], index=['a','b','c','b','d','b','a'])
series2

a    7
b    8
c    9
b    4
d    7
b    9
a    2
dtype: int64

In [69]:
series2.unique()

array([7, 8, 9, 4, 2], dtype=int64)

In [70]:
# agrupa los valores de la serie por el numero de veces que aparece
series2.value_counts()

7    2
9    2
8    1
4    1
2    1
Name: count, dtype: int64

In [71]:
# evalua si los valores estan en la serie
series2.isin([7,8,4])

a     True
b     True
c    False
b     True
d     True
b    False
a    False
dtype: bool

## NAN

NAN significa **NOT A NUMBER** y se usa para representar datos que son el resultado de calculos que no se pueden especificar numericamente o campos que estan vacios.

Deben tenerse en cuenta a la hora de realizar el analisis de datos para que no se afecte el modelo a construir.

In [72]:
# Ejemplo, logartimo de un numero negativo

value1 = np.array(-45)
value2 = np.log(value1)
value2

  value2 = np.log(value1)


nan

In [73]:
# Se pueden detectar como valores null
series3 = pd.Series([3,5,7,np.NaN,9,11, np.NaN,13,15])
series3

0     3.0
1     5.0
2     7.0
3     NaN
4     9.0
5    11.0
6     NaN
7    13.0
8    15.0
dtype: float64

In [74]:
series3_1 = series3.isnull()

In [75]:
series3_1

0    False
1    False
2    False
3     True
4    False
5    False
6     True
7    False
8    False
dtype: bool

In [76]:
series3.notnull()

0     True
1     True
2     True
3    False
4     True
5     True
6    False
7     True
8     True
dtype: bool

In [77]:
# Borrar un valor para mostrar
series3.drop(4)

0     3.0
1     5.0
2     7.0
3     NaN
5    11.0
6     NaN
7    13.0
8    15.0
dtype: float64

In [78]:
series3

0     3.0
1     5.0
2     7.0
3     NaN
4     9.0
5    11.0
6     NaN
7    13.0
8    15.0
dtype: float64

In [79]:
series3.drop([1,7])

0     3.0
2     7.0
3     NaN
4     9.0
5    11.0
6     NaN
8    15.0
dtype: float64

## 2.0 Dataframes

### 🧾 ¿Qué es un DataFrame?
Un DataFrame es una estructura de datos bidimensional de la librería Pandas, muy parecida a una hoja de cálculo (como Excel) o a una tabla de base de datos.

### 🔍 Características principales:

- Está compuesto por filas e índices (como una Serie, pero extendida).
- Tiene múltiples columnas, y cada columna puede tener un tipo de dato distinto (por ejemplo: números, cadenas, fechas).
- Se puede considerar como una colección de Series alineadas por el mismo índice.
- Es ideal para almacenar y manipular datos estructurados.

### 🧠 Analogía útil

Un DataFrame es como una tabla de Excel:

- Las filas son registros.
- Las columnas son atributos o variables.
- El índice identifica cada fila, como una etiqueta.

In [80]:
# Una forma es definir un diccionario y luego pasarlo como un dataframe
data = {'Animal':['Perro','Gato','Raton','Loro','Tortuga'],
         'Clasificación':['Mamifero','Mamifero','Mamifero','Ave','Reptil'],
        'Habitat':['Domestico','Domestico','Calle','Salvaje','Salvaje']}

frame = pd.DataFrame(data)
frame

Unnamed: 0,Animal,Clasificación,Habitat
0,Perro,Mamifero,Domestico
1,Gato,Mamifero,Domestico
2,Raton,Mamifero,Calle
3,Loro,Ave,Salvaje
4,Tortuga,Reptil,Salvaje


In [81]:
# Cambiar los indices
frame2 = pd.DataFrame(data, index=['Uno','Dos','Tres','Cuatro','Cinco'])
frame2

Unnamed: 0,Animal,Clasificación,Habitat
Uno,Perro,Mamifero,Domestico
Dos,Gato,Mamifero,Domestico
Tres,Raton,Mamifero,Calle
Cuatro,Loro,Ave,Salvaje
Cinco,Tortuga,Reptil,Salvaje


In [82]:
frame.head(3)

Unnamed: 0,Animal,Clasificación,Habitat
0,Perro,Mamifero,Domestico
1,Gato,Mamifero,Domestico
2,Raton,Mamifero,Calle


In [83]:
frame.columns

Index(['Animal', 'Clasificación', 'Habitat'], dtype='object')

In [84]:
frame.index

RangeIndex(start=0, stop=5, step=1)

In [85]:
frame2.columns

Index(['Animal', 'Clasificación', 'Habitat'], dtype='object')

In [86]:
frame2.index

Index(['Uno', 'Dos', 'Tres', 'Cuatro', 'Cinco'], dtype='object')

In [87]:
# obtener las filas
frame.values

array([['Perro', 'Mamifero', 'Domestico'],
       ['Gato', 'Mamifero', 'Domestico'],
       ['Raton', 'Mamifero', 'Calle'],
       ['Loro', 'Ave', 'Salvaje'],
       ['Tortuga', 'Reptil', 'Salvaje']], dtype=object)

In [88]:
# Primera forma de obtener una columna especifica
frame['Habitat']

0    Domestico
1    Domestico
2        Calle
3      Salvaje
4      Salvaje
Name: Habitat, dtype: object

In [89]:
# Segunda forma de obtener una columna especifica
frame.Animal

0      Perro
1       Gato
2      Raton
3       Loro
4    Tortuga
Name: Animal, dtype: object

In [90]:
# Obtener fila con loc()
frame.loc[1]

Animal                Gato
Clasificación     Mamifero
Habitat          Domestico
Name: 1, dtype: object

In [91]:
# Obtener multiples filas
frame.loc[[1,4]]

Unnamed: 0,Animal,Clasificación,Habitat
1,Gato,Mamifero,Domestico
4,Tortuga,Reptil,Salvaje


In [92]:
# Un conjunto de filas en un rango
frame.loc[1:3] # El valor final se incluye

Unnamed: 0,Animal,Clasificación,Habitat
1,Gato,Mamifero,Domestico
2,Raton,Mamifero,Calle
3,Loro,Ave,Salvaje


In [93]:
# Uso de indices para obtener un valor especifico, como en las matrices
Animal = frame['Animal'][1]
print("El animal es ", Animal)

El animal es  Gato


In [94]:
frame.index.name = 'N°'
frame.columns.name = 'Caracteristicas'
frame

Caracteristicas,Animal,Clasificación,Habitat
N°,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
0,Perro,Mamifero,Domestico
1,Gato,Mamifero,Domestico
2,Raton,Mamifero,Calle
3,Loro,Ave,Salvaje
4,Tortuga,Reptil,Salvaje


Dataframes son flexibles para agregar o quitar columnas

In [96]:
# Agregar una columna
frame['Vertebrado'] = True
frame

Caracteristicas,Animal,Clasificación,Habitat,Vertebrado
N°,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
0,Perro,Mamifero,Domestico,True
1,Gato,Mamifero,Domestico,True
2,Raton,Mamifero,Calle,True
3,Loro,Ave,Salvaje,True
4,Tortuga,Reptil,Salvaje,True


In [97]:
frame2

Unnamed: 0,Animal,Clasificación,Habitat
Uno,Perro,Mamifero,Domestico
Dos,Gato,Mamifero,Domestico
Tres,Raton,Mamifero,Calle
Cuatro,Loro,Ave,Salvaje
Cinco,Tortuga,Reptil,Salvaje


In [98]:
# borrar una columna
del frame['Vertebrado']
frame

Caracteristicas,Animal,Clasificación,Habitat
N°,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
0,Perro,Mamifero,Domestico
1,Gato,Mamifero,Domestico
2,Raton,Mamifero,Calle
3,Loro,Ave,Salvaje
4,Tortuga,Reptil,Salvaje


In [99]:
# funcion isin
frame.isin(['Salvaje','Perro'])

Caracteristicas,Animal,Clasificación,Habitat
N°,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
0,True,False,False
1,False,False,False
2,False,False,False
3,False,False,True
4,False,False,True


In [102]:
frame[frame.Clasificación == 'Ave']

Caracteristicas,Animal,Clasificación,Habitat
N°,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
3,Loro,Ave,Salvaje


In [103]:
frame[(frame.Clasificación == 'Ave') | (frame.Clasificación=='Reptil')]

Caracteristicas,Animal,Clasificación,Habitat
N°,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
3,Loro,Ave,Salvaje
4,Tortuga,Reptil,Salvaje


In [104]:
# Transposición de un dataframe, filas se convierten en columnas
frame.T

N°,0,1,2,3,4
Caracteristicas,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
Animal,Perro,Gato,Raton,Loro,Tortuga
Clasificación,Mamifero,Mamifero,Mamifero,Ave,Reptil
Habitat,Domestico,Domestico,Calle,Salvaje,Salvaje


In [105]:
# Remover filas
frame3 = frame.drop([1,3])
frame3

Caracteristicas,Animal,Clasificación,Habitat
N°,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
0,Perro,Mamifero,Domestico
2,Raton,Mamifero,Calle
4,Tortuga,Reptil,Salvaje


In [106]:
frame

Caracteristicas,Animal,Clasificación,Habitat
N°,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
0,Perro,Mamifero,Domestico
1,Gato,Mamifero,Domestico
2,Raton,Mamifero,Calle
3,Loro,Ave,Salvaje
4,Tortuga,Reptil,Salvaje


In [107]:
frame.max()

Caracteristicas
Animal           Tortuga
Clasificación     Reptil
Habitat          Salvaje
dtype: object

In [108]:
frame.min()

Caracteristicas
Animal            Gato
Clasificación      Ave
Habitat          Calle
dtype: object

In [112]:
frame.sum()

Caracteristicas
Animal                       PerroGatoRatonLoroTortuga
Clasificación        MamiferoMamiferoMamiferoAveReptil
Habitat          DomesticoDomesticoCalleSalvajeSalvaje
dtype: object

In [116]:
frame['Edad'] = [2,7,8,6,3]
frame

Caracteristicas,Animal,Clasificación,Habitat,Edad
N°,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
0,Perro,Mamifero,Domestico,2
1,Gato,Mamifero,Domestico,7
2,Raton,Mamifero,Calle,8
3,Loro,Ave,Salvaje,6
4,Tortuga,Reptil,Salvaje,3


In [117]:
frame['Edad'].sum()

26

In [118]:
# Calculo de la media
frame['Edad'].mean()

5.2

In [120]:
frame.describe()

Caracteristicas,Edad
count,5.0
mean,5.2
std,2.588436
min,2.0
25%,3.0
50%,6.0
75%,7.0
max,8.0


### Orderar por valor un dataframe

In [121]:
frame.sort_index()

Caracteristicas,Animal,Clasificación,Habitat,Edad
N°,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
0,Perro,Mamifero,Domestico,2
1,Gato,Mamifero,Domestico,7
2,Raton,Mamifero,Calle,8
3,Loro,Ave,Salvaje,6
4,Tortuga,Reptil,Salvaje,3


In [122]:
frame.sort_values(by='Clasificación')

Caracteristicas,Animal,Clasificación,Habitat,Edad
N°,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
3,Loro,Ave,Salvaje,6
0,Perro,Mamifero,Domestico,2
1,Gato,Mamifero,Domestico,7
2,Raton,Mamifero,Calle,8
4,Tortuga,Reptil,Salvaje,3


In [123]:
frame.sort_values(by='Edad')

Caracteristicas,Animal,Clasificación,Habitat,Edad
N°,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
0,Perro,Mamifero,Domestico,2
4,Tortuga,Reptil,Salvaje,3
3,Loro,Ave,Salvaje,6
1,Gato,Mamifero,Domestico,7
2,Raton,Mamifero,Calle,8


In [124]:
frame.sort_values(by=['Clasificación','Edad'])

Caracteristicas,Animal,Clasificación,Habitat,Edad
N°,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
3,Loro,Ave,Salvaje,6
0,Perro,Mamifero,Domestico,2
1,Gato,Mamifero,Domestico,7
2,Raton,Mamifero,Calle,8
4,Tortuga,Reptil,Salvaje,3


### Manejo de NaN

In [125]:
SerieNA = pd.Series([0,1,2,3,np.NaN,4,5,6], index=['uno','dos','tres','cuatro','cinco','seis','siete','ocho'])
SerieNA

uno       0.0
dos       1.0
tres      2.0
cuatro    3.0
cinco     NaN
seis      4.0
siete     5.0
ocho      6.0
dtype: float64

In [126]:
SerieNA.dropna()

uno       0.0
dos       1.0
tres      2.0
cuatro    3.0
seis      4.0
siete     5.0
ocho      6.0
dtype: float64

En un dataframe, **si es un solo valor NaN se eliminara toda la fila o columna**, lo cual puede afectar el resto del modelo.

In [127]:
frameNA = frame
frameNA['Edad'][2] = np.NaN
frameNA

You are setting values through chained assignment. Currently this works in certain cases, but when using Copy-on-Write (which will become the default behaviour in pandas 3.0) this will never work to update the original DataFrame or Series, because the intermediate object on which we are setting values will behave as a copy.
A typical example is when you are setting values in a column of a DataFrame, like:

df["col"][row_indexer] = value

Use `df.loc[row_indexer, "col"] = values` instead, to perform the assignment in a single step and ensure this keeps updating the original `df`.

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy

  frameNA['Edad'][2] = np.NaN
A value is trying to be set on a copy of a slice from a DataFrame

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  frameNA['Edad'][2] = np.NaN


Caracteristicas,Animal,Clasificación,Habitat,Edad
N°,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
0,Perro,Mamifero,Domestico,2.0
1,Gato,Mamifero,Domestico,7.0
2,Raton,Mamifero,Calle,
3,Loro,Ave,Salvaje,6.0
4,Tortuga,Reptil,Salvaje,3.0


In [128]:
# Remover la fila
frameNA.dropna()

Caracteristicas,Animal,Clasificación,Habitat,Edad
N°,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
0,Perro,Mamifero,Domestico,2.0
1,Gato,Mamifero,Domestico,7.0
3,Loro,Ave,Salvaje,6.0
4,Tortuga,Reptil,Salvaje,3.0


In [129]:
# Sustituir el valor NaN por el valor de cero
frameNA.fillna(0)

Caracteristicas,Animal,Clasificación,Habitat,Edad
N°,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
0,Perro,Mamifero,Domestico,2.0
1,Gato,Mamifero,Domestico,7.0
2,Raton,Mamifero,Calle,0.0
3,Loro,Ave,Salvaje,6.0
4,Tortuga,Reptil,Salvaje,3.0


## Exportar e Importar archivos a .csv

In [130]:
# Para guardar el dataframe en un archivo .csv usamos to_csv
frameNA.to_csv('ejemplo.csv')

In [131]:
frameNA.to_csv('ejemplo1.csv',sep=';')

In [132]:
frameNA.to_csv('ejemplo2.csv', index=False, header=False)

**Para mayor información de los diferentes parámetros de la función to_csv ver documentación en https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.to_csv.html**

In [133]:
# Para leer un archivo csv lo hacemos con la función read_csv() de Pandas
frameFromCSV = pd.read_csv('ejemplo2.csv')

In [134]:
# Para leer un archivo csv lo hacemos con la función read_csv() de Pandas
frameFromCSV2 = pd.read_csv('ejemplo1.csv', sep=';')

In [136]:
frameFromCSV

Unnamed: 0,Perro,Mamifero,Domestico,2.0
0,Gato,Mamifero,Domestico,7.0
1,Raton,Mamifero,Calle,
2,Loro,Ave,Salvaje,6.0
3,Tortuga,Reptil,Salvaje,3.0


In [135]:
frameFromCSV2

Unnamed: 0,N°,Animal,Clasificación,Habitat,Edad
0,0,Perro,Mamifero,Domestico,2.0
1,1,Gato,Mamifero,Domestico,7.0
2,2,Raton,Mamifero,Calle,
3,3,Loro,Ave,Salvaje,6.0
4,4,Tortuga,Reptil,Salvaje,3.0


### Exportar e importar archivos en .txt


Se trabaja de manera similar que con los archivos .csv. En el momento de leer o escribir se debe tener en cuenta el caracter separador.

Entre los más comunes tenemos:

.  --> Caracter simple pero no una linea nueva (, ; . -)

\d --> Un digito

\s --> Espacio en blanco

\n --> Nueva linea de caracteres

\t --> tabulación

\uxxxx --> Caracter Unicode con su valor xxxx en Hexadecimal

In [137]:
# Escritura con la función to_csv()
frameFromCSV.to_csv('archivoEnTXT.txt', header=True, index=False, sep='\t', mode='a')

In [138]:
# Lectura 
frameFromTXT = pd.read_csv('archivoEnTXT.txt', sep='\t')
frameFromTXT

Unnamed: 0,Perro,Mamifero,Domestico,2.0
0,Gato,Mamifero,Domestico,7.0
1,Raton,Mamifero,Calle,
2,Loro,Ave,Salvaje,6.0
3,Tortuga,Reptil,Salvaje,3.0


In [139]:
# Otra forma
pd.read_table('archivoEnTXT.txt', sep='\t', engine='python')

Unnamed: 0,Perro,Mamifero,Domestico,2.0
0,Gato,Mamifero,Domestico,7.0
1,Raton,Mamifero,Calle,
2,Loro,Ave,Salvaje,6.0
3,Tortuga,Reptil,Salvaje,3.0


## Tarea Moral

1. Buscar en Internet fuentes de datos estucturados similares a una tabla de un tema de su interes (libre).

2. Tome estos datos, descarguelos en txt o csv y carguelos en un datafram


3. Aplique la función describe() para conocer los datos estadisticos de las columnas que apque.


4. Revise los datos, verifique si existen datos de tipo NaN y transformelos sustituyendolos por un var de 0.


5. Realice minimo 3 filtros cada uno con 3 condiciones minimas sobre alguna columna especifica de su interes. (función AND -> &, Funcn OR -> |)


6. Guarde los resultados anteriores en diferentes dataframes. Exporte en excel, txt y csv los resultos obtenidos.


7. Adicional va guardar los resultados en formato json (pista: revisar función to_json) y luego los va a cargar de nuevo en un el formato json que viene. Conviertalo en un diccionartio (dict) y comprenda la relación llave:valor existente. Para este punto es necesario que investigue como se carga json, como se pasa a un diccionario (puede usar json_normalize() por ejemplo) y que libreas se requieren.


8. Entregar los resultados en un Notebook con todos los pasos ejecutados. Indicar de donde se tomo el datasource e incluir el link. El minimo de columnas a trabajar seran 10 y máximo 20, el numero de filas no tiene restricción pero se aconseja que sea grande para ver las funcionalidades que tiene Pandas.


Algunos links posibe- s para el datasource:


http
- //www.kaggle.com/datasets

https://registry.opendata.aws/#h
- p://aws.amazon.com/datasets
- 
https://www.healthdata.gov/

https://www.pro-football-reference.com/years/2020/draft.htm