In [2]:
"""
1. Leer un archivo CSV de gran tamaño en fragmentos
Para esto se uso el data set del titanic, que se puede descargar de:
https://github.com/awesomedata/awesome-public-datasets/blob/master/Datasets/titanic.csv.zip
Este nos proporciona un .csv el cual lo copiamos en nuestra carpeta
"""
import pandas as pd
chunksize = 250  # Número de filas por fragmento
# Leer el archivo CSV en fragmentos
for chunk in pd.read_csv('titanic.csv', chunksize=chunksize):
    print(f"Procesando fragmento con {len(chunk)} filas")

Procesando fragmento con 250 filas
Procesando fragmento con 250 filas
Procesando fragmento con 250 filas
Procesando fragmento con 141 filas


In [5]:
"""
2. Contar la frecuencia de palabras en un texto muy grande
Para esto se uso el data set de la novela
"Don Quijote de la Mancha", que se puede descargar de:
https://www.gutenberg.org/files/2000/2000-0.txt
"""
from collections import Counter
def contar_frecuencia_palabras(archivo):
    with open(archivo, 'r', encoding='utf-8') as f:
        texto = f.read()
    palabras = texto.split()
    contador = Counter(palabras)
    return contador

archivo = 'texto.txt'
frecuencia_palabras = contar_frecuencia_palabras(archivo)
# Imprimir las 10 palabras más comunes
print(frecuencia_palabras.most_common(10))

[('que', 19546), ('de', 18134), ('y', 15976), ('la', 10329), ('a', 9627), ('el', 8009), ('en', 7941), ('no', 5622), ('se', 4751), ('los', 4701)]


In [31]:
"""
3. Convertir datos JSON a DataFrame
Para esto se uso el data set de la API de Pokemon, que se puede descargar de:
https://pokeapi.co/api/v2/pokemon?limit=1000
"""
import json
with open('monedas.json', 'r', encoding='utf-8') as f:
    data = json.load(f)

df = pd.DataFrame(data)
df.head()

Unnamed: 0,amount,base,start_date,end_date,rates
2019-12-31,1.0,USD,2019-12-31,2025-05-27,"{'AUD': 1.4238, 'BGN': 1.741, 'BRL': 4.0197, '..."
2020-01-02,1.0,USD,2019-12-31,2025-05-27,"{'AUD': 1.43, 'BGN': 1.7473, 'BRL': 4.0088, 'C..."
2020-01-03,1.0,USD,2019-12-31,2025-05-27,"{'AUD': 1.4381, 'BGN': 1.7546, 'BRL': 4.0613, ..."
2020-01-06,1.0,USD,2019-12-31,2025-05-27,"{'AUD': 1.44, 'BGN': 1.7472, 'BRL': 4.0612, 'C..."
2020-01-07,1.0,USD,2019-12-31,2025-05-27,"{'AUD': 1.4546, 'BGN': 1.7506, 'BRL': 4.0839, ..."


In [32]:
df.drop(columns=['amount', 'start_date', 'end_date'], inplace=True)
df = df.reset_index()
df = df.rename(columns={'index': 'Fecha'})
df.head()

Unnamed: 0,Fecha,base,rates
0,2019-12-31,USD,"{'AUD': 1.4238, 'BGN': 1.741, 'BRL': 4.0197, '..."
1,2020-01-02,USD,"{'AUD': 1.43, 'BGN': 1.7473, 'BRL': 4.0088, 'C..."
2,2020-01-03,USD,"{'AUD': 1.4381, 'BGN': 1.7546, 'BRL': 4.0613, ..."
3,2020-01-06,USD,"{'AUD': 1.44, 'BGN': 1.7472, 'BRL': 4.0612, 'C..."
4,2020-01-07,USD,"{'AUD': 1.4546, 'BGN': 1.7506, 'BRL': 4.0839, ..."


In [34]:
rates_df = df["rates"].apply(pd.Series)
df = pd.concat([df, rates_df], axis=1)
df.drop(columns=['rates'], inplace=True)
df.head()

Unnamed: 0,Fecha,base,AUD,BGN,BRL,CAD,CHF,CNY,CZK,DKK,...,NZD,PHP,PLN,RON,RUB,SEK,SGD,THB,TRY,ZAR
0,2019-12-31,USD,1.4238,1.741,4.0197,1.2994,0.96617,6.9615,22.617,6.6508,...,1.4824,50.65,3.7892,4.2576,62.272,9.2993,1.3451,29.745,5.9501,14.0442
1,2020-01-02,USD,1.43,1.7473,4.0088,1.2998,0.9707,6.9638,22.703,6.6755,...,1.4936,50.768,3.8009,4.273,61.815,9.3566,1.3476,30.145,5.959,14.0709
2,2020-01-03,USD,1.4381,1.7546,4.0613,1.2982,0.97246,6.9716,22.751,6.7041,...,1.4998,51.12,3.8121,4.2867,62.007,9.4068,1.3499,30.155,5.9735,14.2838
3,2020-01-06,USD,1.44,1.7472,4.0612,1.2976,0.96927,6.9724,22.602,6.6761,...,1.4997,51.141,3.7891,4.2651,62.002,9.4075,1.3498,30.145,5.9764,14.2456
4,2020-01-07,USD,1.4546,1.7506,4.0839,1.2997,0.97118,6.9425,22.624,6.6891,...,1.5067,50.87,3.8003,4.2766,61.992,9.4364,1.3499,30.275,5.9757,14.2968


In [36]:
"""
4. Filtrar datos en un DataFrame grande
"""
df_csv = pd.read_csv('titanic.csv')
df_filtred = df_csv[df_csv['Survived'] == 1]
df_filtred.head()

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.925,,S
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1,C123,S
8,9,1,3,"Johnson, Mrs. Oscar W (Elisabeth Vilhelmina Berg)",female,27.0,0,2,347742,11.1333,,S
9,10,1,2,"Nasser, Mrs. Nicholas (Adele Achem)",female,14.0,1,0,237736,30.0708,,C


In [42]:
"""
5. Agrupar y resumir datos (GroupBy)
"""
df_grouped = df_csv.groupby(['Sex', "Pclass"]).agg({'Survived': 'mean'})
df_grouped.head()

Unnamed: 0_level_0,Unnamed: 1_level_0,Survived
Sex,Pclass,Unnamed: 2_level_1
female,1,0.968085
female,2,0.921053
female,3,0.5
male,1,0.368852
male,2,0.157407


In [43]:
"""
6. Usar compresion al guardar un archivo grane
"""
df_csv.to_csv('titanic_comprimido.csv.gz', compression='gzip', index=False)